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Beschreibung 

VERFAHREN ZUM TRAINIEREN DER GRAPHEME NACH PHONEMEN 
REGELN FUR DIE SPRACHSYNHESE 

5 

Die Erfindung betrifft ein Verfahren zum Aufbereiten einer 
Datenbank fiir die automatische Sprachverarbeitung, sowie ein 
Verfahren zum Trainieren eines neuronalen Netzwerkes zum Zu- 
ordnen von Graphemen zu Phonemen ftir die automatische Sprach- 
10 verarbeitung und ein Verfahren zum Zuordnen von Graphemen zu 
Phonemen bei der Synthetisierung von Sprache bzw. bei der Er- 
kennung von Sprache. 

Es ist bekannt, neuronale Netzwerke fur die Synthetisierung 
15 von Sprache zu verwenden, wobei die neuronalen Netzwerke ei- 
nen Text, der in einer Folge von Graphemen dargestellt ist, 
in Phoneme umsetzen, welche von einer entsprechenden Sprach- 
ausgabevorrichtung in die korrespondierenden akustischen Lau- 
te gewandelt werden. Grapheme sind Buchstaben beziehungsweise 
20 Buchstabenkombinationen, welchen jeweils ein Laut, das Pho- 
nem, zugeordnet ist. Vor einem erstmaligen Einsatz des neuro- 
nalen Netzwerkes muB dieses trainiert werden. Dies erfolgt 
tiblicherweise durch Verwendung einer Datenbank, die die Gra- 
phem-Phonem-Zuordnungen enthalt, wodurch festgelegt ist, wel- 
25 chem Graphem welches Phonem zugeordnet ist. 

Die Erstellung einer solchen Datenbank bedeutet einen erheb- 
lichen zeitlichen wie auch geistigen Aufwand, da derartige 
Datenbanken in der Regel nur mit Hilfe eines Sprachexperten 
30 aufgebaut werden konnen. 

Der Erfindung liegt die Aufgabe zugrunde ein Verfahren zu 
schaf fen, mit welchen auf einf ache Art und Weise eine Gra- 
phem-Phonem-Zuordnungen enthaltende Datenbank erstellt werden 
35 kann. 
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Die Aufgabe wird durch ein Verfahren mit den Merkmalen des 
Anspruchs 1 geldst. Vorteilhafte Ausgestaltungen der Erfin- 
dung sind in den Unteranspriichen angegeben. 

5 Das erf indungsgemaBe Verfahren zum Aufbereiten eiher Daten- 
bank fur die automatische Sprachverarbeitung geht von einer 
Datenbank aus, die Worter in Form von Graphemen und Phonemen 
enthalt. Fur die meisten Sprachen existieren bereits derarti- 
ge Datenbanken. Diese Datenbanken sind Worterbticher, die die 
10 Worter in Schreibschrift (Grapheme) und in Lautschrif t (Pho- 
neme) enthalten. Diesen Datenbanken fehlt jedoch die Zuord- 
nung der einzelnen Phoneme zu den entsprechenden Graphemen. 
Diese Zuordnung wird erf indungsgemafi automatisch durch die 
folgenden Schritte ausgeftlhrt: 

15 

a) Zuordnen der Grapheme zu den Phonemen aller Worter, 
die dieselbe Anzahl Grapheme und Phoneme besitzen, wobei die 
Grapheme und Phoneme einander paarweise zugeordnet werden, 

b) Zuordnen der Grapheme zu den Phonemen aller Worter , 
20 die mehr Grapheme als Phoneme besitzen, wobei zunachst alle 

Grapheme den Phonemen paarweise zugeordnet werden, bis sich 
ein Zuordnungsfehler auf Grundlage der bisher ermittelten Zu- 
ordnungen ergibt oder lediglich am Wortende ein oder mehrere 
Grapheme vorhanden sind, welchen kein Phonem zugeordnet ist, 
25 und Zusammenfassen mehrerer Grapheme zu einer Graphemeinheit 
und Zuordnen eines Graphems zu der Phonemeinheit, und 

c) Zuordnen der Grapheme zu den Phonemen aller Worter, 
die weniger Grapheme als Phoneme besitzen, wobei mehrere Pho- 
neme zu einer Phonemeinheit zusammengef aBt werden und ihnen 

30 ein einziges Graphem derart zugeordnet wird, dafl die iibrigen 
Graphem- Phonem- Zuordnungen des zu analysierenden Wortes den 
unter a) und b) gefundenen Zuordnungen entspricht, 

d) Zuordnen der bisher nicht zuordbaren Worter, wobei 
die Worter nach den unter c) ermittelten Phonemeinheiten 

35 und/oder den unter b) ermittelten Graphemeinheiten untersucht 
werden und die Phoneme zu den Graphemen unter Berttcksichti- 
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gung der Phonemeinheiten und/oder Graphemeinheiten 2ugeordnet 
werden, und 

wobei zumindest nach Schritt a) ein Korrekturschritt aus- 
geftihrt wird, mit dem Zuordnungen von Wortern, die im Wider- 
5 spruch zu den im Schritt a) ermittelten weiteren Zuordnungen 
stehen, geloscht werden. 

Erfindungsgemafi werden zunachst Worter untersucht, die die- 
selbe Anzahl Grapheme und Phoneme besitzen. Die Grapheme die- 
10 ser Worter werden den Phonemen paarweise zugeordnet, wobei in 
einem darauf folgenden Korrekturschritt die Zuordnungen der 
Worter geloscht werden, die im Widerspruch zu den weiteren 
Zuordnungen stehen. 

15 Mit diesem ersten Zuordnungsvorgang kann eine GroBzahl der 

Worter abgearbeitet werden und zudem statistisch signifikante 
Zuordnungen erzielt werden, die eine ttberpriifung im Korrek- 
turschritt erlauben und die auch eine Oberpriifung der weite- 
ren zu erstellenden Zuordnungen in den nachfolgenden Schrit- 

20 ten erlauben. 

Danach werden die Worter untersucht, bei denen sich die An- 
zahl der Phoneme gegentiber der Anzahl von Graphemen unter- 
scheidet. Bei Wortern mit mehr Graphemen als Phonemen werden 
25 mehrere Grapheme zu Graphemeinheiten zusammengef aBt und bei 
Wortern mit weniger Graphemen als Phonemen werden Phoneme zu 
Phonemeinheiten zusammengef aBt . 

Nach Beendigung dieser Schritte werden die bisher nicht zu- 
30 ordbaren Worter tiberprtift, wobei hierbei die ermittelten Pho- 
nemeinheiten und/oder die ermittelten Graphemeinheiten be- 
rucksichtigt werden. 

Mit dem erf indungsgemafien Verfahren wird somit schrittweise 
35 automat isch ein „Zuordnungswissen" erstellt, das zunachst auf 
paarweisen Graphem-Phonem- Zuordnungen beruht und in das im 
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Laufe des Verfahrens' auch Graphemeinheiten und Phonemeinhei- 
ten einbezogen werden. 

Das erfindungsgemaBe Verfahren kann fiir jede beliebige Spra- 
5 che angewandt werden, ftir die bereits eine elektronisch les- 
bare Datenbank besteht, die Worter in Form von Graphemen und 
Phonemen enthalt, wobei eine Zuordnung zwischen den Phonemen 
,und Graphemen nicht notwendig ist. Der Einsatz von Experten- 
wissen ist nicht erforderlich, da das erfindungsgemaBe Ver- 
io fahren vollautomatisch ausgeftlhrt wird. 

Mit der erf indungsgemaB erstellten Datenbank kann dann ein 
neuronales Netzwerk trainiert werden, mit dem die Graphem- 
Phonem-Zuordnungen bei der Synthetisierung oder Erkennung von 
15 Sprache automatisch ausgefilhrt werden. 

Die Erfindung wird nachfolgend naher anhand eines Ausfiih- 
rungsbeispieles erlautert, das in den Zeichnungen dargestellt 
ist. In diesen zeigen: 

20 

Fig. 1 , ein AusfOhrungsbeispiel des erf indungsgemaflen Ver- 
fahrens in einem FlxiBdiagramm, 

Fig. 2 schematisch ein neuronales Netzwerk zum Zuordnen 
25 von Graphemen zu Phonemen, und 

Fig. 3 schematisch eine Vorrichtung zur Ausfuhrung des er- 
f indungsgemaB en Verfahrens. 

30 Das erfindungsgemaBe Verfahren dient zum Aufbereiten einer 

Datenbank far die Sprachsynthese, wobei von einer Ausgangsda- 
tenbank ausgegangen wird, die Worter in Form von Graphemen 
und Phonemen enthalt. Eine solche Ausgangsdatenbank ist jedes 
Worterbuch, das die Worter sowohl in Schreibschrif t (Graphe- 

35 me) als auch in Lautschrift (Phoneme) enthalt* Diese Worter- 
bucher enthalten jedoch keine Zuordnung der einzelnen Graphe- 
me zu den jeweiligen Phonemen. Sinn und Zweck des erfindungs- 
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gemafien Verfahrens ist die Erstellung einer solchen Zuord- 
nung* ? 

In Fig. 1 ist ein Ausfiihrungsbeispiel des erf indungsgemafien 
5 Verfahrens in einem Flufldiagramm dargestellt. In einem 
Schritt SI wird das Verfahren gestartet. 

Im Schritt S2 werden alle Worter untersucht, die die gleiche 
Anzahl Grapheme und Phoneme besitzen. Die Grapheme dieser 
10 Worter werden den entsprechenden Phonemen paarweise zugeord- 
net . 

Eine derartige paarweise Zuordnung wird z.B. fur das engli- 
sche Wort „run" ausgeftthrt, das folgendermafien mit seinen 
15 Graphemen und Phonemen dargestellt werden kann: 

Grapheme: run 
Phoneme: r A n 

20 Bei „run" wird das Graphem „r M dem Phonem „r x \ das Graphem 
„u" dem Phonem und das Graphem „n xx dem Phonem „n w zuge- 
ordnet. Bei dieser paarweisen Zuordnung wird somit jeweils 
ein einziges Graphem einem einzigen Phonem zugeordnet. Dies 
wird fur alle Worter ausgeftthrt, die die gleiche Anzahl von 

25 Phoneme und Grapheme besitzen. 

Im nachfolgenden Schritt S3 wird eine Korrektur ausgefuhrt, 
mit der die Zuordnungen der Worter, die im Widerspruch zu dem 
im Schritt S2 ermittelten weiteren Zuordnungen stehen, ge- 

30 ldscht werden. Hierzu werden die Haufigkeiten der einzelnen 
Graphem-Phonem-Zuordnungen erfafit und Graphem-Phonem- 
Zuordnungen die nur selten vorkommen werden geloscht. Liegt 
die Haufigkeit einer bestimmten Graphem- Phonem- Zuordnung un- 
ter einem vorbestimmten Schwellwert, so werden die entspre- 

35 chenden Graphem-Phonem-Zuordnungen geloscht. Der Schwellwert 
liegt z.B. im Bereich von einer Haufigkeit von 10 bis 100. Je 
nach Umfang des Vokabulars der Ausgangsdatenbank kann der 
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Schwellwert entsprechend angepaBt werden, wobei bei groBeren 
Ausgangsdatenbanken ein hoherer Schwellwert als bei kleineren 
Ausgangsdatenbanken zweckmafiig ist. 

5 Ein Beispiel filr eine derartige widerspriichliche Graphem- 
Phonem-Zuordnung ist das englische Wort „fire": 

Grapheme: fire 
Phoneme: f I @ r 

10 

Die Zuordnung des Graphems „r u zum Phonem „@"und die Zuord- 
nung des Graphems „e" zum Phonem „r xx sind nicht korrekt zuge- 
ordnet. Diese beiden Zuordnungen treten sehr selten auf, wes- 
halb ihre HSufigkeit kleiner als der Schwellwert ist, so daB 
15 sie im Schritt S3 geloscht werden. Zudem wird im Schritt S3 
das Wort „fire xx wieder als nicht-zugeordnet markiert, so daB 
es in einem spateren Zuordnungsschritt wieder untersucht wer- 
den kann. 

20 Im Schritt S4 werden Worter untersucht, die mehr Grapheme als 
Phoneme besitzen, wobei jeweils eiri Graphem einem Phonem in 
Leserichtung (von links nach rechts) zugeordnet wird und die 
verbleibenden Grapheme mit dem letzten Graphem, dem ein Pho- 
nem zugeordnet worden ist, zu einer Grapheme inhe it zusammen- 

25 gefafit werden. Ein Beispiel eines Wortes, das auf diese Art 

.i 

und Weise korrekt zugeordnet wird, ist das englische Wort 
„aback xx : 

Grapheme: a b a ck 
30 Phoneme: x b @ k 

Im hierauf folgenden Schritt S5 wird wiederum eine Korrektur 
ausgefilhrt, mit der Zuordnungen geloscht werden, die im Wi- 
derspruch zu den bisher ermittelten Zuordnungen stehen, das 
35 heiBt, Zuordnungen, die nur eine geringe Haufigkeit aufwei- 
! sen. Der Schritt S5 ist diesbezttglich identisch. mit dem 

Schritt S3. 

i 
i 
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Im Schritt S6 werden die Worter, die mehr Grapheme als Phone- 
me besitzen und im Schritt S4 nicht korrekt zugeordnet werden 
konnten, von neuem untersucht, wobei jeweils ein einzelnes 
5 Graphem einem einzelnen Phonem in Leserichtung (von links 
nach rechts) zugeordnet wird. Jede einzelne Zuordnung wird 
tiberpruft, ob sie den bisher ermittelten Zuordnungen ent- 
spricht. Ergibt diese Uberpriifung, daB eine Graphem- Phonem- 
Zuordnung nicht den bisherigen Zuordnungen ent spricht / das 

10 heiflt, daB sie nicht die notwendige Haufigkeit besitzt, geht 
das Verfahren auf die letzte Graphem- Phonem- Zuordnung zuriick 
und verbindet das Graphem dieser Graphem- Phonem- Zuordnung mit 
dem in Leserichtung nachstem Graphem zu einer Graphemeinheit. 
Die tibrigen Phoneme und Grapheme werden dann wieder einander 

15 einzeln zugeordnet , wobei wiederum jede einzelne Graphem- 
Phonem- Zuordnung iiberpruft wird* 

Bei diesem Verf ahrensschritt konnen innerhalb eines Wortes 
eine oder mehrere Graphemeinheit en erzeugt werden, wobei die 
20 Graphemeinheiten in der Regel zwei Grapheme umfassen. Es ist 
jedoch auch moglich, daB die Graphemeinheiten drei oder mehr 
Grapheme umfassen konnen. 

Ein Wort, bei dem der Schritt S6 zu einer erf olgreichen Zu- 
25 ordnung fuhrt ist z.B. das englische Wort ^abasement xx : 

Grapheme: abasement 
Phoneme: xbes mint 

30 Bei „abasement" erfolgt die paarweise Zuordnung korrekt bis 
zum Graphem „e x% das zunachst dem Phonem „m x \ zugeordnet wird. 
Diese Zuordnung steht im Widerspruch zu den bisher ermittel- 
ten Zuordnungen, weshalb das Verfahren auf die letzte erfolg- 
reiche Zuordnung des Graphems „s" zum Phonem „s* zurtlckgeht 

35 und das Graphem „s xx mit dem Graphem „e" zur Graphemeinheit 
„se™ verbindet. Die weitere paarweise Zuordnung der Grapheme 
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zu den Phonemen entspricht wieder den bisher ermittelten Zu- 
ordnungen, weshalb sie dementsprechend ausgefilhrt werden. 

Im Schritt S7 werden die im Schritt S6 untersuchten Worter, 
5 die nicht vollstSndig erfolgreich zugeordnet worden sind, 
markiert und deren Zuordnungen werden wiederum geloscht. 

Im Schritt S8 werden die Worter, die mehr Grapheme als Phone- 
me besitzen und in den Schritten S4 und S6 nicht korrekt zu- 

10 geordnet werden konnten, von Neuem untersucht, wobei jeweils 
ein einzelnes Graphem einem einzelnen Phonem zunachst in Le- 
serichtung (von links nach rechts) zugeordnet wird. Jede ein- 
zelne Zuordnung wird wiederum iiberprtift, ob sie den bisher 
ermittelten Zuordnungen entspricht. Ergibt diese Oberprtifung, 

15 dafi eine Graphem-Phonem-Zuordnung nicht den bisherigen Zu- 
ordnungen entspricht, das heifit, dafi die Zahl der Haufigkeit 
unter einem vorbestimmten Schwellwert liegt, werden entgegen 
der Leserichtung (von rechts nach links) einzelne Grapheme 
einzelnen Phonemen zugeordnet. Bleibt bei dieser Methode le- 

20 diglich ein Phonem iiber, dem kein Graphem zugeordnet werden 
kann, so werden die restlichen Grapheme zu einer Graphemein- 
heit zusammengefafit und dem einen Phonem zugeordnet. 

Bei diesem Verf ahrensschritt kann innerhalb eines Wortes eine 
25 Grapheme inhe it erzeugt werden. 

Ein Wort, bei dem der Schritt S8 zu einer erfolgreichen Zu- 
ordnung fOhrt, ist z.B. das englische Wort „amongst": 

30 Grapheme: a m o ng s t 

Phoneme: x m A G s t 

Bei „amongst" erfolgt die paarweise Zuordnung von links nach 
rechts korrekt bis zum Graphem „n", das zunachst dem Phonem 
35 „G" zugeordnet wird. Diese Zuordnung steht im Wider spruch zu 
den bisher ermittelten Zuordnungen, weshalb eine paarweise 
Zuordnung von rechts nach links ausgefiihrt wird. Diese Zuord- 
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nung verlauft korrekt bis zum Graphem „g xx das zunachst dem 
Phonem „G XX zugeordnet wird. Diese Zuordnung steht im Wider- 
spruch zu den bisher entiittelten Zuordnungen. Als einziges 
Phonem dem kein Graphem zugeordnet werden kann, verbleibt das 
5 Phonem „G XX . Diesem Phonem „G XX werden nun die restlichen Gra- 
pheme „n xx und „g xx , die zu einer Grapheme inhe it zusammengef afit 
werden, zugeordnet. 

Im Schritt S9 werden die im Schritt S8 untersuchten Worter, 
10 die nicht vollstandig erfolgreich zugeordnet worden sind, 
markiert und deren Zuordnungen werden wiederum geloscht. 

Im Schritt S10 werden die Worter, die weniger Grapheme als 
Phoneme besitzen untersucht, wobei die einzelnen Grapheme den 

15 einzelnen Phonemen paarweise zugeordnet werden, wobei die 
Grapheme auch den zu den zugeordneten Phonemen benachbarten 
Phonemen zugeordnet werden. Von all diesen Zuordnungen wird 
die jeweilige H&ufigkeit bestimmt, und falls festgestellt 
wird, dafi ein Graphem zwei benachbarten Phonemen mit einer 

20 grofien Haufigkeit zugeordnet werden kann, werden diese beiden 
Phoneme zu einer Phonemeinheit zusammengef aBt, falls die bei- 
den Phoneme zwei Vokale oder zwei Konsonanten sind. 

Ein Wort, bei dem der Schritt S9 zu einer korrekten Zuordnung 
25 ftihrt, ist z.B. das englische Wort „axes xx : 

Grapheme: axes 
Phoneme: @ ks i z 

30 Bei „axes xx ergibt die Zuordnungen des Graphems „x xx zu den 

Phonemen „k xx und „s xx jeweils eine Haufigkeit, die Uber einem 
vorbestimmten Schwellwert liegt, so daB diese beiden Phoneme 
zur Phonemeinheit „ks xx zusammengef afit werden. Die tibrigen 
Grapheme und Phoneme werden wiederum paarweise zugeordnet. 

35 
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Im Schritt S10 ist es auch moglich, daB mehrere Phoneme inhei- 
ten gebildet werden oder daB die Phonemeinheiten auch mehr 
als zwei Phoneme umfassen. 

Im Schritt Sll wird wiederum eine Korrektur durchgefuhrt, bei 
der die Zuordnungen, die selten auftreten, gel5scht werden, 
und die W6rter in denen diese widerspruchlichen Zuordnungen 
festgestellt worden sind als nicht- zugeordnet markiert wer- 
den. Der Schritt Sll entspricht im wesentlichen den Schritten 
S3 und S5, wobei hier jedoch auch die bis zum Schritt S10 er- 
mittelten Graphem-Phonem- Zuordnungen berticksichtigt werden. 

Der Schritt S12 entspricht im wesentlichen dem Schritt S10, 
das heiBt, daB Phonemeinheiten aus benachbarten Phonemen ge- 
bildet werden, wobei im Schritt S12 die Phonemeinheiten nicht 
auf zwei Konsonanten oder zwei Vokale beschrankt sind, son- 
dern auch eine Mischung aus Vokalen und Konsonanten beinhal- 
ten konnen. 

Im Schritt S13 wird wiederum ein Korrekturvorgang durchge- 
fiihrt, der dem des Schrittes Sll entspricht, wobei alle mitt- 
lerweile ermittelten Graphem-Phonem-Zuordnungen berticksich- 
tigt werden. 

Im Schritt S14 werden die in den Schritten S10 und S12 ermit- 
telten Phonemeinheiten verwendet, urn WSrter, deren Grapheme 
nicht den Phonemen korrekt zugeordnet werden konnten, erneut 
zu untersuchen, wobei fur benachbarte Phoneme, fur die be- 
reits eine Phonemeinheit existiert, diese eingesetzt wird. 
Optional ist es auch moglich, daB die bisher ermittelten Gra- 
phemeinheiten berticksichtigt werden. Sollte von dieser Option 
kein Gebrauch gemacht werden, kSnnen hier Graphemeinheiten 
erneut gemaB den Methoden nach den Schritten S4, S6 und S8 
gebildet werden. 

Ein Wort, das die Zuordnung gemaB dem Schritt S14 zeigt, ist 
das englische Wort „accumulated w : 
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Grapheme: a cc u mu lated 
Phoneme: x k yumyxletld 

Bei diesem Wort werden zunSchst die Phoneme „y w und „u w bzw. 
„y w und ,,x" durch die Phonemeinheiten ,,yu w bzw. „yx n ersetzt. 
Da diese Phonemeinheiten bereits bei den vorhergehenden 
Schritten ermittelt worden sihd, wird im Schritt S14 von der 
Option Gebrauch gemacht, dafi auch die Graphemeinheiten be- 
riicksichtigt werden, so wird fur die beiden Grapheme „c w und 
„c ,x die Graphemeinheit „cc w verwendet. Die paarweise Zuord- 
nungen der einzelnen Grapheme bzw. Graphemeinheiten zu den 
einzelnen Phonemen bzw. Phonemeinheiten ergibt eine korrekte 
Zuordnung. 

Wird von der Option der Beriicksichtigung der Graphemeinheiten 
kein Gebrauch gemacht/ so werden, wie es im Schritt S6 der 
Fall ist, die einzelnen Grapheme den einzelnen Phonemen bzw. 
Phonemeinheiten zugeordnet, wobei im vorliegenden Fall bei 
der Zuordnung des Graphems „c n zu der Phonemeinheit „yu w eine 
zu den bisherigen Zuordnungen widersprUchliche Zuordnung er- 
folgt. Diese widersprUchliche Zuordnung wird festgestellt und 
das Graphem „c w wird mit dem vorhergehenden Graphem „c w zu 
„cc w zusammengefafit. Dies fiihrt wiederum zu einer korrekten 
Zuordnung der Grapheme zu den Phonemen. 

Im Schritt S15 wird wiederum gepriift, ob widersprUchliche Zu- 
ordnungen erfolgt sind. Werden derartige widersprUchliche Zu- 
ordnungen festgestellt, werden sie und die weiteren Zuordnun- 
gen des jeweiligen Wortes geloscht. 

Mit dem Schritt SI 6 wird das Verfahren beendet. 

Die Anzahl der im Schritt S15 ermittelten widerspruchlichen 
Zuordnungen ist ein Merkmal fur die Qualitat der Aufbereitung 
der Ausgangsdatenbank zu der durch das Verfahren erhaltenen 
Datenbank mit den einzelnen Graphem- Phonem- Zuordnungen. 
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Das erf indungsgemafle Verfahren konnte schon sehr erfolgreich 
zur automatischen Erstellung einer Datenbank filr die deutsche 
Sprache eingesetzt werden, wobei eine Zuordnungsdatenbank mit 
insgesamt 47 Phonemen und 92 Graphemen aufgebaut worden ist. 
Bei der Erstellung der Datenbank fiir die englische Sprache, 
die eine wesentlich kompliziertere Graphem-Phonem-Zuordnung 
besitzt, ergaben sich 62 Phoneme und 222 Grapheme, deren Zu- 
ordnungen nicht so gut wie bei der deutschen Sprache war. Die 
grofiere Anzahl von Graphemen in der englischen Sprache macht 
deren Bearbeitung kompliziert. Es kann deshalb zweckmafiig 
sein, ein Null-Phonem einzuftthren, das heifit ein Phonem ohne 
einen Laut. Ein derartiges Null-Phonem kann z.B. der engli- 
schen Graphemeinheit „gh xx zugeordnet werden, das in der eng- 
lischen Sprache stimmlos in Kombination mit den Graphemen 
„ei", „ou" und „au xx vorkommt. Wtirde man kein derartiges Null- 
Phonem einfuhren, mttfite man zusatzlich zu den Graphemen „ei x \ 
„ou xx und „au xx die Phoneme „eigh x \ „ough xx und „augh xx einftih- 
ren. Das Null-Phonem erlaubt eine Verringerung der Anzahl der 
Grapheme, da „eigh", „ough xx und „augh xx jeweils durch „ei x \ 
„ou xx und „au xx in Kombination mit „gh xx ersetzt werden konnen. 
Hierdurch kann die Zuverlassigkeit des Verfahrens gesteigert 
werden. Insbesondere erlaubt eine geringere Anzahl von Phone- 
men bzw. Graphemen eine einfachere, schnellere und zuverlas- 
sigere Anwendung bei einem neuronalen Netzwerk, das mittels 
der mit dem erf indungsgemafien Verfahren erstellten Datenbank 
trainiert wird. 

Ein solches neuronales Netzwerk ist in Fig. 2 schematisch 
vereinfacht dargestellt, das fiinf Eingangsknoten und zwei 
Ausgangsknoten aufweist. An drei der ftlnf Eingangsknoten wer- 
den drei aufeinanderfolgende Buchstaben Bl, B2 und B3 eines 
Wortes, das in Phoneme umgesetzt werden soli, eingegeben. Auf 
der Ausgangsseite gibt es zwei Knoten, wobei einer der beiden 
das jeweilige Phonem Ph und der andere Knoten eine Gruppie- 
rung Gr ausgibt. An den beiden weiteren Eingangsknoten wird 
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die zuletzt ausgegebene Gruppierung Gri und das zuletzt aus- 
gegebene Phonem Phi eingegeben. 

Dieses Netzwerk wird mit den Wortern der mit dem erfindungs- 
5 gemafien Verfahren aufbereiteten Datenbank trainiert, deren 
Gr aph em- Phonem- Zuordnungen keinen Wider spruch zu den tibrigen 
Gr aphem- Phonem- Zuordnungen darstellen, das heifit, den Wor- 
tern, deren Grapheme korrekt den Phonemen zugeordnet werden 
konnten. 

10 

Das neuronale Netzwerk ermittelt jeweils fiir den mittleren 
Buchstaben B2 ein Phonem, wobei der jeweils im Kontext vor- 
hergehenden und nachfolgende Buchstabe und das dem zu ermit- 
telnden Phonem vorhergehende Phonem Phi berucksichtigt wer- 
15 den. Stellen die beiden auf einanderfolgenden Buchstaben B2 
und B3 eine Graphemeinheit dar, so ergibt sich eine Ausgabe 
ftir die Gruppierung Gr von zwei. 1st der Buchstabe B2 kein 
. Bestandteil einer aus mehreren Buchstaben bestehenden Graphe- 
meinheit, so wird als Gruppierung Gr eine eins ausgegeben. 

20 

Auf der Eingangsseite wird die jeweils letzte Gruppierung Gri 
berucksichtigt, wobei im Falle einer Gruppierung von Gri von 
zwei dem mittleren Buchstaben B2 kein Phonem Ph zugeordnet 
wird, da dieser Buchstabe bereits mit der letzten Graphemein- 
25 heit berucksichtigt worden ist. In diesem Fall wird der zwei- 
te Buchstabe der Gruppierung tibersprungen. 

Beim Training des neuronalen Netzwerkes werden, wie es an 
sich bekannt ist, jeweils die Werte fiir die Eingangsknoten 
30 und fttr die Aus gangs knot en dem neuronalen Netzwerk vorgege- 
ben, wodurch sich das neuronale Netzwerk die jeweiligen Zu- 
ordnungen im Kontext der Worter aneignet. 

Es kann zweckmaBig sein, mehr als drei Buchstaben an der Ein- 
35 gangsseite des neuronalen Netzwerkes vorzusehen, insbesondere 
bei Sprachen, wie der englischen Sprache, in welcher mehrere 
Buchstaben zur Darstellung eines einzigen Lautes verwendet 
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werden. Filr die deutsche Sprache ist es zweckmafiig an der 
Eingangsseite drei oder fiinf Knoten zur Eingabe von Buchsta- 
ben vorzusehen, wohingegen fur die englische Sprache fiinf, 
sieben oder sogar neun Knoten zur Eingabe von Buchstaben 
zweckmafiig sein kSnnen. Bei neun Knoten konnen Graphemeinhei- 
ten mit bis zu fiinf Buchstaben behandelt werden. 

Ist das neuronale Netzwerk einmal mit der erf indungsgemafien 
Datenbank trainiert worden, kann es zur automatischen Erzeu- 
gung von Sprache verwendet werden. Eine Vorrichtung zum Er- 
zeugen von Sprache, in der das erf indungsgemafie neuronale 
Netzwerk eingesetzt werden kann, ist schematisch in Fig. 3 
gezeigt . 

Diese Vorrichtung ist eine elektronische Datenverarbeitungs- 
vorrichtung 1 mit einem internen Bus 2, an dem eine zentrale 
Prozessoreinheit 3, eine Speichereinheit 4, ein Interface 5 
und eine akustische Ausgabeeinheit 6 angeschlossen sind. Das 
Interface 5 kann uber eine Datenleitung 8 eine Verbindung zu 
einer weiteren elektronischen Datenverarbeitungsvorrichtung 
herstellen. An der akustischen Ausgabeeinheit 6 ist ein Laut- 
sprecher 7 angeschlossen. 

In der Speichereinheit 4 ist das erf indungsgemafie neuronale 
Netzwerk in Form eines Computerprogrammes abgespeichert, das 
mittels der zentralen Prozessoreinheit 3 zur Ausftihrung ge- 
bracht werden kann. Ein Text, der der elektronischen Daten- 
verarbeitungsvorrichtung auf beliebige Weise, z.B. uber das 
Interface 5, zugefuhrt wird, kann dann mit einem entsprechen- 
den Hilfsprogramm dem neuronalen Netzwerk zugefuhrt werden, 
das die Grapheme, bzw. Buchstaben des Textes in entsprechende 
Phoneme umsetzt. Diese Phoneme werden in einer Phonem-Datei 
gespeichert, die uber den internen Bus 2 an die akustische 
Ausgabeeinheit 6 weitergegeben wird, mit der die einzelnen 
Phoneme in elektrische Signale umgesetzt werden, die vom 
Lautsprecher 7 in akustische Signale gewandelt werden. 
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Mit einer solchen elektronischen Datenverarbeitungsvorrich- 
tung 1 kann auch das erfindungsgemaBe Verfahren zum Aufberei- 
ten einer Datenbank ausgefiihrt werden, wobei das Verfahren 
wiederum in Form eines Computerprogrammes im Speicher 4 ge- 
speichert ist und von der zentralen Prozessoreinheit 3 zur 
Ausfuhrung gebracht wird, wobei es eine Ausgangsdatenbank, 
die ein Worterbuch in Schreib- und Lautschrift darstellt, in 
eine Datenbank aufbereitet, in der die einzelnen Laute, die 
Phoneme, den einzelnen Buchstaben bzw. Buchstabenkombinatio- 
nen, den Graphemen zugeordnet sind. 

Die Zuordnung der einzelnen Grapheme zu den einzelnen Phone- 
men kann in der aufbereiteten Datenbank durch Leerzeichen ge- 
speichert werden, die zwischen den einzelnen Phonemen und 
Graphemen eingefiigt werden. 

Die das erf indungsgemafie Verfahren bzw. das neuronale Netz- 
werk darstellenden Computerprogramme konnen auch auf beliebi- 
ge elektronisch lesbare Datentrager gespeichert werden und so 
auf eine weitere elektrische Datenverarbeitungsvorrichtung 
ubertragen werden. 

Die Erfindung ist oben anhand eines Ausftihrungsbeispieles Be- 
schrieben, mit dem eine Datenbank fur die Sprachsynthese er- 
zeugt wird. Im Rahmen der Erfindung ist es selbstverstandlich 
auch moglich, die erf indungsgemaB erzeugte Datenbank bei der 
Spracherkennung zu verwenden, da Spracherkennungsverf ahren 
oftmals Datenbanken mit Graphem-Phonem-Zuordnungen gebrau- 
chen. 

Eine Spracherkennung kann bspw. mit einem neuronalen Netzwerk 
ausgeftihrt werden, das mit der erf indungsgemafi erstellten Da- 
tenbank trainiert worden ist. An der Eingangsseite weist die- 
ses neuronale Netzwerk vorzugsweise drei Eingangsknoten auf/ 
an welchen das in ein Graphem umzusetzende Phonem eingegeben 
und falls vorhanden zumindest ein im Wort vorhergehendes und 
ein nachfolgendes Phonem eingegeben werden. An der Ausgangs- 
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seite weist das neuronale Netzwerk einen Knoten auf, an dem 
das dem Phoneiti zugeordnete. Graphem ausgegeben wird. 

Im Rahmen der Erfindung liegt somit jede Anwendung des Er- 
stellens und Anwenden der erf indungsgemafi erstellten Daten- 
bank im Bereich der automatischen Sprachverarbeitung. 
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Patentansprtiche 

1. Verfahren zum Aufbereiten einer Datenbank ftir die au- 
tomatische Sprachverarbeitung, bei welchem anhand der Worter 
in Form von Graphemen und Phonemen enthaltenden Datenbank ei- 
he Zuordnung der Grapheme zu den Phonemen erstellt wird, urn- 
fassend folgende Schritte: 

a) Zuordnen der Grapheme zu den Phonemen all er Worter, 
die dieselbe Anzahl Grapheme und Phoneme besitzen, wobei die 
Grapheme und Phoneme einander paarweise zugeordnet werden, 

b) Zuordnen der Grapheme zu den Phonemen aller Worter, 
die mehr Grapheme als Phoneme besitzen,. wobei zunachst alle 
Grapheme den Phonemen paarweise zugeordnet werden, bis sich 
ein Zuordnungsfehler auf Grundlage der bisher ermittelten Zu- 
ordnungen oder lediglich am Wortende ein oder mehrere Graphe- 
me vorhanden sind, die keinem Phonem zugeordnet sind, und Zu- 
sammenfassen mehrerer Grapheme zu einer Grapheme inheit und 
Zuordnen eines Graphems zu der Phonemeinheit, und 

c) Zuordnen der Grapheme zu den Phonemen aller Worter, 
die weniger Grapheme als Phoneme besitzen, wobei mehrere Pho- 
neme zu einer Phonemeinheit zusammengefaBt werden und ihnen 
ein einziges Graphem derart zugeordnet wird, daJJ die ubrigen 
Graphem-Phonem-Zuordnungen des zu analysierenden Wortes den 
unter a) und b) gefundenen Zuordnungen entsprechen, 

d) Zuordnen der bisher nicht zuordbaren Worter, wobei 
die Wdrter nach den unter c) ermittelten Phoneme inhe it en 
und/oder den unter b) ermittelten Graphemeinheiten untersucht 
werden und die Grapheme zu den Phonemen unter Beriicksichti- 
gung der Phonemeinheiten und/oder Graphemeinheiten zugeordnet 
werden, und 

wobei zumindest nach Schritt a) ein Korrekturschritt aus- 
geftihrt wird, mit dem Zuordnungen von Wortern, die im Wider- 
spruch zu den im Schritt a) ermittelten weiteren Zuordnungen 
stehen, geloscht werden . 

2. Verfahren nach Anspruch 1, 
dadurch gekennzeichnet, 
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dafi nach jedem der Schritte a) bis d) ein Korrektur- 
schritt ausgefuhrt wird, mit dem Zuordnungen von Wort em, die 
im Widerspruch zu den in den jeweiligen Schritten bzw. Teil- 
schritten ermittelten weiteren Zuordnungen stehen, geloscht 
5 werden. 

3. Verfahren nach Anspruch 1 oder 2, 
dadurch gekennzeichnet, 

dafi der Korrekturschritt auf Grundlage einer Statistik 
10 ausgefuhrt wird, mit welcher die Haufigkeit der einzelnen 

Graphem-Phonem- Zuordnungen erfafit wird, wobei mit dem Korrek- 
turschritt ermittelt wird, welche Zuordnungen eine Haufigkeit 
aufweisen, die unter einem vorbestimmten Schwellwert liegt, 
und diese Zuordnungen Idscht. 

15 

4. Verfahren nach Anspruch 3, 
dadurch gekennzeichnet, 

daB die Worter, die eine geloschte Zuordnung enthalten 
als nicht zugeordnet markiert werden, so dafi sie bei einem 
20 der nachf olgenden Schritte wieder berticksichtigt werden kon- 
nen . 

5. Verfahren nach einem der Ansprtlche 1 bis 4, 
dadurch gekennzeichnet, 

25 daB beim Zuordnen der Grapheme zu den Phonemen aller Wor- 

ter, die weniger Grapheme als Phoneme besitzen, lediglich Vo- 
kale oder Konsonanten zu einer Phonemeinheit zusammengefafit 
werden • 

30 6. Verfahren nach einem der Anspruche 1 bis 4, 

dadurch gekennzeichnet, 
dafi beim Zuordnen der Grapheme zu den Phonemen aller Wor- 
ter, die weniger Grapheme als Phoneme besitzen, zunachst Vo- 
kale oder Konsonanten in einer Phonemeinheit zusammengefafit 
35 und entsprechend dem Schritt c) zugeordnet werden, und falls 
weiterhin Worter, die weniger Grapheme als Phoneme besitzen, 
nicht zugeordnet werden konnen, auch Vokale mit Konsonanten 



WO 01/18792 



PCT/DEOO/02940 



19 

zu einer Phonemeinheit zusammengefaBt und entsprechend dem 
Schritt c) zugeordnet werden. 

7. Verfahren nach einem der Anspriiche 1 bis 6, 
dadurch gekennzeichnet, 

daB beim Zuordnen der Grapheme zu den Phonemen aller Wor- 
ter, die mehr Grapheme als Phoneme besitzen, das oder die 
restlichen, am Wortende vorgesehenen Grapheme, zusammen mit 
dem letzten Graphem, das dem letzten Phonem des Wortes zuge- 
ordnet worden ist, zu einer Graphemeinheit zusammengef aBt 
wird und die dem letzten Phonem des Wortes zugeordnet wird. 

8. Verfahren nach Anspruch 7, 
dadurch gekennzeichnet, 

daB falls sich ein Zuordnungswiderspruch auf Grundlage 
der bisher ermittelten Zuordnungen ergibt, an die langste zu- 
ordnungswiderspruchsfreie Kette von Graphemen das nachste 
Graphem mit dem letzten Graphem der Kette zu einer Graphe- 
meinheit zusammengefaBt und die Zuordnung erneut versucht 
wird, wobei falls wiederum keine Graphem- Phonem- Zuordnung 
er.stellt werden kann, das nachste\ Graphem mit der zuletzt ge- 
bildeten Graphemeinheit zusammengefaBt und die Zuordnung er- 
neut versucht wird. 

9. Verfahren nach Anspruch 8, 
dadurch gekennzeichnet, 

daB, falls keine Graphem-Phonem-Zuordnung eines Wortes 
mit mehreren Graphemen als Phonemen erzielt werden kann, die 
Zuordnung zunachst mit einer am Anfang des Wortes beginnenden 
paarweisen Zuordnung gestartet wird, bis sich ein Zuordnungs- 
widerspruch auf Grundlage der bisher ermittelten Zuordnungen 
ergibt, worauf eine am Ende des Wortes beginnende paarweise 
Zuordnung ausgefiihrt wird, und wenn lediglich ein einzelnes 
nicht zugeordnetes Phonem tibrig bleibt, werden die restlichen 
Grapheme zu einer Graphemeinheit zusammengefaBt und dem einen 
nicht zugeordnetem Phonem zugeordnet. 
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10. Verfahren zum Trainieren eines neuronalen Netzwerkes 
zum Zuordnen von Graphemen zu Phonemen ftlr die automatische 
Sprachverarbeitung, 

dadurch gekennzeichnet, 
daB das neuronale Netzwerk mit einer nach dem Verfahren 
der Anspruche 1 bis 9 aufbereiteten Datenbank trainiert wird, 
wobei die Grapheme an Eingangsknoten und die zugehorigen Pho- 
neme an einem Ausgangsknoten des neuronalen Netzwerkes einge- 
geben werden. 

11. Verfahren zum Zuordnen von Graphemen zu Phonemen bei 
der Synthetisierung von Sprache, 

dadurch gekennzeichnet, 
daB die Graphem-Phonem-Zuordnung durch eine Zuordnung ei- 
nes Ausgangsmusters zu einem Eingangsmusters des nach dem 
Verfahren des Anspruchs 10 trainiertem neuronalen Netzwerkes 
ausgefiihrt wird, wobei das Eingangsmuster zumindest den zuzu- 
ordnenden Buchstaben und falls vorhanden zumindest einen im 
Wort vorhergehenden und einen nachfolgenden Buchstaben umfaBt 
und das Ausgangsmuster ein Phonem ayfweist. 

12. Verfahren nach Anspruch 11, 
dadurch gekennzeichnet, 

daB das Eingangsmuster mehrere dem zuzuordnenden Buchsta- 
ben vorhergehende und nachfolgende Buchstaben umfaBt, wobei 
es vorzugsweise jeweils drei vorhergehende und nachfolgende 
Buchstaben umfaBt. 

13. Verfahren nach Anspruch 11 oder 12, 
dadurch gekennzeichnet, 

daB das Eingangsmuster das letzte Ausgangsmuster umfaBt. 

14. Verfahren nach einem der Anspruche 11 bis 13, 
dadurch gekennzeichnet, 



WO 01/18792 



PCT/DE00/02940 



21 

- dafi das Ausgangsmuster eine Gruppierung der Buchstaben, 
d.h., die Anzahl der zu einer Graphemeinheit im Eingangsmu- 
ster zusammengef aflteri Buchstaben aufweist. 

5 15. Verfahren zum Zuordnen von Phonemen zu Graphemen bei 

der Erkennung von Sprache, 

dadurch gekennzeichnet, 
dafi die Graphem- Phonem- Zuordnung durch eine Zuordnung ei- 
nes Ausgangsmusters zu einem Eingangsmusters des nach dem 
10 Verfahren des Anspruchs 10 trainiertem neuronalen Netzwerkes 
ausgefiihrt wird, wobei das Eingangsmuster zumindest das zuzu 
ordnende Phonem und falls vorhanden ein im Wort vorhergehen- 
des und ein nachfolgendes Phonem umfafit und das Ausgangsmu- 
ster einen Buchstaben aufweist. 

15 

16. Neuronales Netzwerk fUr die automatische Sprachverar- 
beitung, mit welchem automatisch eine Zuordnung zwischen Gra 
phemen und Phonemen hergestellt werden kann, 

dadurch gekennzeichnet, 
20 dafi das neuronale Netzwerk gemafi dem Verfahren nach An- 

spruch 10 trainiert worden ist. 

17. Neuronales Netzwerk nach Anspruch 16, 
dadurch gekennzeichnet, 

25 dafl es auf einem elektronisch lesbaren Datentrager ge- 

speichert ist 
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Behorde vorgenommenen Berichtigungen (siehe Regel 70.16 und Abschnitt 607 der Verwaltungsrichtlinien zum PCT). 

Diese Anlagen umfassen insgesamt 1 Blatter. 



3. Dieser Bericht enthalt Angaben zu folgenden Punkten: 
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Grundlage des Berichts 


II 
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Prioritat 


III 
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Keine Erstellung eines Gutachtens uber Neuheit, erfinderische Tatigkeit und gewerbliche Anwendbarkeit 


IV 
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Mangelnde Einheitlichkeit der Erfindung 


V 


IS 


Begrundete Feststellung nach Artikel 35(2) hinsichtlich der Neuheit, der erfinde rise hen Tatigkeit und der 
gewerblichen Anwendbarkeit; Unterlagen und Erklarungen zur Stutzung dieser Feststellung 


VI 
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Bestimmte angefuhrte Unterlagen 


VII 
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Bestimmte Mangel der intemationalen Anmeldung 


VIII 
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Bestimmte Bemerkungen zur intemationalen Anmeldung 
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Formblatt PCT/IPEA/409 (Deckbiatt) (Januar 1994) 



INTERNATIONALER VORLAUFIGER 
PRUFUNGSBERICHT 



Internationales Aktenzeichen PCT/DEOO/02940 



I. Grundlage des Berichts 

1 . Hinsichtlich der Bestandteile der internationalen Anmeldung (Ersatzblatter, die dem Anmeldeamt auf eine 
Aufforderung nach Artikel 14 hin vorgelegt wurden, gelten im Rahmen dieses Berichts a/s "ursprunglich 
eingereicht" und sind ihm nicht beige fugt, weil sie keine Anderungen enthaiten (Regeln 70. 16 and 70. 17)): 
Beschreibung, Seiten: 

1-16 ursprungliche Fassung 



Patentanspruche, Nr.: 

2 (Teil),3-17 ursprungliche Fassung 

1 ,2 (Teil) eingegangen am 1 7/09/2001 mit Schreiben vom 1 4/09/2001 



Zeichnungen, Blatter: 

1/2,2/2 ursprungliche Fassung 



2. Hinsichtlich der Sprache: Alle vorstehend genannten Bestandteile standen der Behorde in der Sprache, in der 
die Internationale Anmeldung eingereicht worden ist, zur Verfugung oder wurden in dieser eingereicht, sofern 
unter diesem Punkt nichts anderes angegeben ist. 

Die Bestandteile standen der Behorde in der Sprache: zur Verfugung bzw. wurden in dieser Sprache 
eingereicht; dabei handelt es sich um 

□ die Sprache der Obersetzung, die fur die Zwecke der internationalen Recherche eingereicht worden ist (nach 
Regel 23.1(b)). 

□ die Veroffentlichungssprache der internationalen Anmeldung (nach Regel 48.3(b)). 

□ die Sprache der Obersetzung, die fur die Zwecke der internationalen vorlaufigen Prufung eingereicht worden 
ist (nach Regel 55.2 und/oder 55.3). 

3. Hinsichtlich der in der internationalen Anmeldung offenbarten Nucleotide und/oder Aminosauresequenz ist die 
internationale vorlaufige Prufung auf der Grundlage des Sequenzprotokolls durchgefuhrt worden, das: 

□ in der internationalen Anmeldung in schriftlicher Form enthaiten ist. 

□ zusammen mit der internationalen Anmeldung in computerlesbarer Form eingereicht worden ist. 

□ bei der Behorde nachtraglich in schriftlicher Form eingereicht worden ist. 

□ bei der Behorde nachtraglich in computerlesbarer Form eingereicht worden ist. 

□ Die Erklarung, daB das nachtraglich eingereichte schriftliche Sequenzprotokoll nicht uber den 
Offenbarungsgehalt der internationalen Anmeldung im Anmeldezeitpunkt hinausgeht, wurde vorgelegt. 

□ Die Erklarung, da(3 die in computerlesbarer Form erfassten Informationen dem schriftlichen 
Sequenzprotokoll entsprechen, wurde vorgelegt. 



Formblatt PCT/IPEA/409 (Felder l-VIII, Blatt 1) (Juli 1998) 



INTERNATIONALER VORLAUFIGER 
PRUFUNGSBERICHT 

Internationales Aktenzeich en PCT/DE00/02940 

4. Aufgrund der Anderungen sind folgende Unterlagen fortgefallen: 

□ Beschreibung, 

□ Anspruche, 

□ Zeichnungen, 



Seiten: 

Nr.: 

Blatt: 



emgeraichten Fassung hinausgshen (Regel 70 2<c» Cenbarungsgehalt in der ursprOnglich 



6. Etwaige zusatzliche Bemerkungen: 



1. Feststellung J 



Neuheit(N) Io . A 

' J a. Anspruche 1-1 7 

Nein: Anspruche 
Erfinderische Tatigkeit (ET) Ja: AnsprQche M7 

Nein: Anspruche 
Gewerbliche Anwendbarkeit (GA) Ja: Anspruche 1 -1 7 

Nein: Anspruche 

2. Unterlagen und Erklarungen 
siehe Beiblatt 



Formblatt PCT/IPEA/409 (Felder l-VIII, Blatt 2) (Juli 1 





INTERNATIONALER VORLAUFIGER 
PRUFUNGSBERICHT - BEIBLATT 



Internationales Aktenzeichen PCT/DE00/02940 



zu Punkt V: 



1. 

) 



2. 

) 



Der Anspruch 1 entspricht den Erfordernissen gemass Artikel 33(2) und (3) PCT 
aus den folgenden Grunden: 

Die Erstellung einer Datenbank fur die automatische Spracherkennung erfolgt 
nach dem Stand der Technik nur mit Hilfe eines Sprachexperten. Die Erfinder 
erkennen, dass die Erstellung einer solchen Datenbank einen erheblichen 
zeitlichen und finanziellen Aufwand beinhaltet. Zur Losung der technischen 
Aufgabe schlagen deshalb die Erfinder ein Verfahren vor, bei dem anhand der 
Worter in Form von Graphemen und Phonemen enthaltenden Datenbank 
automatisch eine Zuordnung der Grapheme zu den Phonemen erstellt wird. 

Der Anspruch 1 ist neu. Da der Gegenstand des Anspruchs 1 fur einen Fachmann 
nicht naheliegend ist, beinhaltet Anspruch 1 einen erfinderischen Schritt. 

Der Anspruch 16 beansprucht ein neuronales Netzwerk fur die automatische 
Sprachverarbeitung zur automatischen Zuordnung zwischen Graphemen und 
Phonemen, bei dem das neuronale Netzwerk gemass dem Verfahren nach 
Anspruch 1 trainiert wird. Der Anspruch 16 ist demzufolge ebenfalls neu und 
erfinderisch. 
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Patentanspruche 

1. Verfahren zum Aufbereiten einer Datenbank fur die au- 
tomatische Sprachverarbeitung, bei welchem anhand Ser.-.WSrter 
5 in Form von Graphemen und Phonemen enthaltenden Datenbank au- 
tomat isch eine Zuordnung der Grapheme zu den Phonemen er- 
stellt wird, umfassend folgende Schritte: 

a) Zuordnen der Grapheme zu den Phonemen aller Worter, 

die dieselbe Anzahl Grapheme und Phoneme besitzen, wobei die 
10 Grapheme und Phoneme einander paarweise zugeordnet werden, 
j b) Zuordnen der Grapheme zu den Phonemen aller Worter, 

die mehr Grapheme als Phoneme besitzen, wobei zunachst alle 
Grapheme den Phonemen paarweise zugeordnet werden, bis sich 
ein Zuordnungsfehler auf Grundlage der bisher ermittelten Zu- 
15 ordnungen ergibt oder lediglich am Wortende ein Oder mehr ere 
Grapheme vorhanden sind # die keinem Phonem zugeordnet sind, 
und Zusammenfassen mehrerer Grapheme zu einer Graphemeinheit 
und Zuordnen der Graphemeinheit zu einem Phonem, und 

c) Zuordnen der Grapheme zu den Phonemen aller Worter, 

2 0 die weniger Grapheme als Phoneme besitzen, wobei mehr ere Pho- 
neme zu einer Phonemeinheit zusammengef aSt werden und ihnen 
ein einziges Graphem derart zugeordnet wird, dafi die ubrigen 
Graphem- Phonem- Zuordnung en des zu analysierenden Wortes den 
J unter a) und b) gefundenen Zuordnungen entsprechen, 

25 d ) Zuordnen der bisher nicht zuordbaren Worter, wobei 

die Worter nach den unter c) ermittelten Phonemeinheiten 
und/oder den unter b) ermittelten Graphemeinheiten von neuem 
untersucht werden und die Grapheme zu den Phonemen unter Be- 

phemeinheiten im Fall b) zugeordnet werden, und 

wobei zumindest nach Schritt a) ein Korrekturschri tt aus- 
gefuhrt wird, mit dem Zuordnungen von Wortern, die im Wider- 
spruch zu den im Schritt a) ermittelten weiteren Zuordnungen 
stehen, geloscht werden. 
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2 . Verfahren nach Anspruch 1 , 
dadurch gekennzeichnet, 
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1. This international preliminary examination report has been prepared by this International Preliminary Examining 
Authority and is transmitted to the applicant according to Article 36. 



This REPORT consists of a total of 



. sheets, including this cover sheet. 



This report is also accompanied by ANNEXES, i.e., sheets of the description, claims and/or drawings which have 
been amended and are the basis for this report and/or sheets containing rectifications made before this Authority 
(see Rule 70.16 and Section 607 of the Administrative Instructions under the PCT). 



These annexes consist of a total of 



1 



sheets. 



3. This report contains indications relating to the following items: 
Basis of the report 
Priority 

Non-establishment of opinion with regard to novelty, inventive step and industrial applicability 
Lack of unity of invention 

Reasoned statement under Article 35(2) with regard to novelty, inventive step or industrial applicability* 
citations and explanations supporting such statement 

Certain documents cited 

Certain defects in the international application 

Certain observations on the international application 
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IV 
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VII 
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VIII 
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Form PCT/IPEA/409 (cover sheet) (January 1994) 



INTERNATIONAL PRELIMINARY EXAMINATION REPORT 



Jternational application No. 

PCT/DE00/02940 



I. Basis of the report 



1 . This report has been drawn on the basis of {Replacement sheets which have been furnished to the receiving Office in response to an invitation 
under Article 14 are referred to in this report as 'originally filed" and are not annexed to the report since they do not contain amendments.): 

j^x(] the international application as originally filed. 

the description, pages 1-16 , as originally filed, 

pages , filed with the demand, 

pages , filed with the letter of - • 

pages , filed with the letter of _ 



the claims, 



Nos. 
Nos. 
Nos. 
Nos. 
Nos. 



2 (in part), 3-17 



1,2 (in part) 



, as originally filed, 

, as amended under Article 19 } 

, filed with the demand, 
, filed with the letter of 
, filed with the letter of 



14 September 2001 (14.09.2001) 



the drawings, 



sheets/fig 
sheets/fig 
sheets/fig 
sheets/fig 



1/2, 2/2 



, as originally filed, 
, filed with the demand, 
, filed with the letter of 
, filed with the letter of 



2. The amendments have resulted in the cancellation of: 

I 1 the description, pages 

I I the claims, Nos. 



□ 

the drawings, sheets/fig 



3 I I This report has been established as if (some of) the amendments had not been made, since they have been considered 
— to go beyond the disclosure as filed, as indicated in the Supplemental Box (Rule 70.2(c)). 

4. Additional observations, if necessary: 



Form PCT/IPEA/409 (Box I) (January 1994) 



INTERNATIONAL PREL^BNARY EXAMINATION REPORT 



lactational application No. 
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V. Reasoned statement under Article 35(2) with regard to novelty, inventive step or industrial applicability; 



citations and explanations supporting such statement 

1 . Statement 

Novelty (N) Claims 1-17 YES 

Claims NO 

Inventive step (IS) Claims 1-17 YES 

Claims NO 

1—17 

Industrial applicability (IA) Claims x x ' YES 

Claims NO 

2. Citations and explanations 



1. Claim 1 meets the requirements of PCT Article 33(2) 
and (3) for the following reasons: 

According to the prior art, a database for automatic 
voice recognition can only be established with the 
aid of a speech expert. The inventor acknowledges 
that to establish a database of this type involves 
considerable time and cost. Therefore, in order to 
solve the technical problem, the inventor suggests a 
process in which a database containing words in the 
form of graphemes and phonemes automatically assigns 
the graphemes to the phonemes. 

Claim 1 is novel and involves an inventive step 
since the subject matter of this claim is not 
obvious to a person skilled in the art. 

2. Claim 16 discloses a neuronal network for automatic 
speech processing, by means of which an assignment 
between graphemes and phonemes can be established 
automatically, said neuronal network being trained 
as per the process according to Claim 1. Claim 16 
is therefore likewise novel and inventive. 
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International filing date (day/month/year) 

29/08/2000 
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Applicant 
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This International Search Report has been prepared by this International Searching Authority and is transmitted to the applicant 
according to Article 18. A copy is being transmitted to the International Bureau. 

This International Search Report consists of a total of 3 sheets. 

fX] It is also accompanied by a copy of each prior art document cited in this report. 



Basis of the report 

a. With regard to the language, the international search was carried out on the basis of the international application in the 
language in which it was filed, unless otherwise indicated under this item. 

| | the international search was carried out on the basis of a translation of the international application furnished to this 
Authority (Rule 23.1(b)). 

b. With regard to any nucleotide and/or amino acid sequence disclosed in the international application, the international search 
was carried out on the basis of the sequence listing : 

j^] contained in the international application in written form. 

filed together with the international application in computer readable form, 
furnished subsequently to this Authority in written form, 
furnished subsequently to this Authority in computer readble form. 



□ 
□ 
□ 
□ 

□ 

□ 
□ 



the statement that the subsequently furnished written sequence listing does not go beyond the disclosure in the 
international application as filed has been furnished. 

the statement that the information recorded in computer readable form is identical to the written sequence listing has been 
furnished 

Certain claims were found unsearchable (See Box I). 
Unity of invention is lacking (see Box II). 



With regard to the title, 

[ ] the text is approved as submitted by the applicant. 

[X] the text has been established by this Authority to read as follows: 
VERFAHREN ZUM TRAINIEREN DER GRAPHEME NACH PHONEMEN REGELN FUR DIE SPRACHSYNTHE 
SE 



5. With regard to the abstract, 

pT| the text is approved as submitted by the applicant. 

I I the text has been established, according to Rule 38.2(b), by this Authority as it appears in Box III. The applicant may, 
1 — 1 within one month from the date of mailing of this international search report, submit comments to this Authority. 

6. The figure of the drawings to be published with the abstract is Figure No. 2 



pT| as suggested by the applicant. Q None of the figures. 

] because the applicant failed to suggest a figure. 
[ | because this figure better characterizes the invention. 
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Patent Claims 



1. A method for conditioning a database for automatic 
speech processing, in which with the aid of the 
5 database containing words in the form of graphemes and 
phonemes an assignment of the graphemes to the phonemes 
is set up, comprising the following steps: 

a) assigning the graphemes to the phonemes of all the 
words which have the same number of graphemes and 

10 phonemes, the graphemes and phonemes being assigned to 
one another in pairs, 

b) assigning the graphemes to the phonemes of all the 
words which have more graphemes than phonemes, all the 
graphemes firstly being assigned to the phonemes in 

15 pairs until an assignment error [lacuna] on the basis 
of the assignments determined hitherto, or there are 
present only at the end of the word one or more 
graphemes which are not assigned to a phoneme, and 
combining a plurality of graphemes to form a grapheme 

20 unit and assigning a grapheme to the phoneme unit, and 

c) assigning the graphemes to the phonemes of all the 
words which have fewer graphemes than phonemes, a 
plurality of phonemes being combined to form a phoneme 
unit, and a single grapheme being assigned to them in 

25 such a way that the remaining grapheme /phoneme 
assignments of the word to be analyzed correspond to 
the assignments found under a) and b) , 

d) assigning the words hitherto not assignable, the 
words being examined in terms of the phoneme units 

3 0 determined under c) and/or the grapheme units 
determined under b) , and the graphemes being assigned 
to the phonemes while taking account of the phoneme 
units and/or grapheme units, and 

there being executed at least after step a) a 
35 correction step with the aid of which assignments of 
words which contradict the further assignments 
determined in step a) are erased. 



2. The method as claimed in claim 1, characterized in 
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Beschreibung 

Verfahren zum Aufbereiten einer Datenbank fur die automati- 
sche Sprachverarbeitung 

Die Erfindung betrifft ein Verfahren zum Aufbereiten einer 
Datenbank fur die automatische Sprachverarbeitung, sowie ein 
Verfahren zum Trainieren eines neuronalen Netzwerkes zum Zu- 
ordnen von Graphemen zu Phonemen fur die automatische Sprach- 
verarbeitung und ein Verfahren zum Zuordnen von Graphemen zu 
Phonemen bei der Synthetisierung von Sprache bzw. bei der Er- 
kennung von Sprache . 

Es ist bekannt, neuronale Netzwerke fur die Synthetisierung 
von Sprache zu verwenden, wobei die neuronalen Netzwerke ei- 
nen Text, der in einer Folge von Graphemen dargestellt ist, 
in Phoneme umsetzen, welche von einer entsprechenden Sprach- 
ausgabevorrichtung in die korrespondierenden akustischen Lau- 
te gewandelt werden. Grapheme sind Buchstaben beziehungsweise 
Buchstabenkombinationen, welchen jeweils ein Laut, das Pho- 
nem, zugeordnet ist. Vor einem erstmaligen Einsatz des neuro- 
nalen Netzwerkes mufi dieses trainiert werden. Dies erfolgt 
ublicherweise durch Verwendung einer Datenbank, die die Gra- 
phem-Phonem-Zuordnungen enthalt, wodurch festgelegt ist, wel- 
chem Graphem welches Phonem zugeordnet ist. 

Die Erstellung einer solchen Datenbank bedeutet einen erheb- 
lichen zeitlichen wie auch geistigen Aufwand, da derartige 
Datenbanken in der Regel nur mit Hilfe eines Sprachexperten 
aufgebaut werden konnen. 

Der Erfindung liegt die Aufgabe zugrunde ein Verfahren zu 
schaffen, mit welchen auf einfache Art und Weise eine Gra- 
phem-Phonem-Zuordnungen enthaltende Datenbank erstellt werden 
kann . 
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Die Aufgabe wird durch ein Verfahren mit den Merkmalen des 
Anspruchs 1 gelost. Vorteilhafte Ausgestal tungen der Erfin- 
dung sind in den Unteranspruchen angegeben. 

Das erf indungsgemafie Verfahren zum Aufbereiten einer Daten- 
bank fur die automatis.che Sprachverarbeitung geht von einer 
Datenbank aus, die Worter in Form von Graphemen und Phonemen 
enthalt. Fur die meisten Sprachen existieren bereits derarti- 
ge Datenbanken. Diese Datenbanken sind Worterbucher, die die 
Worter in Schreibschrif t (Grapheme) und in Lautschrift (Pho- 
neme) enthalten. Diesen Datenbanken fehlt jedoch die Zuord- 
nung der einzelnen Phoneme zu den entsprechenden Graphemen. 
Diese Zuordnung wird erf indungsgemaB automatisch durch die 
folgenden Schritte ausgeftihrt: 

a) Zuordnen der Grapheme zu den Phonemen aller Worter, 
die dieselbe Anzahl Grapheme und Phoneme besitzen, wobei die 
Grapheme und Phoneme einander paarweise zugeordnet werden, 

b) Zuordnen der Grapheme zu den Phonemen aller Worter, 
die mehr Grapheme als Phoneme besitzen, wobei zunachst alle 
Grapheme den Phonemen paarweise zugeordnet werden, bis sich 
ein Zuordnungsfehler auf Grundlage der bisher ermittelten Zu- 
ordnungen ergibt oder lediglich am Wortende ein oder mehrere 
Grapheme vorhanden sind, welchen kein Phonem zugeordnet ist, 
und Zusammenfassen mehrerer Grapheme zu einer Graphemeinheit 
und Zuordnen eines Graphems zu der Phonemeinheit, und 

c) Zuordnen der Grapheme zu den Phonemen aller Worter, 
die weniger Grapheme als Phoneme besitzen, wobei mehrere Pho- 
neme zu einer Phonemeinheit zusammengef aft t werden und ihnen 
ein einziges Graphem derart zugeordnet wird, dafl die iibrigen 
Graphem-Phonem-Zuordnungen des zu analysierenden Wortes den 
unter a) und b) gefundenen Zuordnungen entspricht, 

d) Zuordnen der bisher nicht zuordbaren Worter, wobei 
die Worter nach den unter c) ermittelten Phonemeinheiten 
und/oder den unter b) ermittelten Graphemeinhei ten untersucht 
werden und die Phoneme zu den Graphemen unter Beriicksichti- 
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gung der Phonemeinheiten und/oder Graphemeinheiten zugeordnet 
werden, und 

wobei zumindest nach Schritt a) ein Korrekturschritt aus- 
gefuhrt wird, mit dem Zuordnungen von Wortern, die im Wider- 
5 spruch zu den im Schritt a) ermittelten weiteren Zuordnungen 
stehen, geloscht werden. 

Erf indungsgemaB werden zunachst Worter untersucht, die die- 
selbe Anzahl Grapheme und Phoneme besitzen. Die Grapheme die- 
10 ser Worter werden den Phonemen paarweise zugeordnet, wobei in 
einem darauf f olgenden Korrekturschritt die Zuordnungen der 
Worter geloscht werden, die im Widerspruch zu den weiteren 
Zuordnungen stehen . 

15 Mit diesem ersten Zuordnungsvorgang kann eine Groilzahl der 

Worter abgearbeitet werden und zudem statistisch signifikante 
Zuordnungen erzielt werden, die eine Uberprufung im Korrek- 
turschritt erlauben und die auch eine Uberprufung der weite- 
ren zu erstellenden Zuordnungen in den nachf olgenden Schrit- 

20 ten erlauben . 



Danach werden die Worter untersucht, bei denen sich die An- 
zahl der Phoneme gegenuber der Anzahl von Graphemen unter- 
scheidet. Bei Wortern mit mehr Graphemen als Phonemen werden 
25 mehrere Grapheme zu Graphemeinheiten zusammengef aBt und bei 
Wortern mit weniger Graphemen als Phonemen werden Phoneme zu 
Phonemeinheiten zusammengef alit . 

Nach Beendigung dieser Schritte werden die bisher nicht zu- 
30 ordbaren Worter uberpruft, wobei hierbei die ermittelten Pho- 
nemeinheiten und/oder die ermittelten Graphemeinheiten be- 
riicksichtigt werden. 

Mit dem er f indungsgemaften Verfahren wird somit schrittweise 
35 automatisch ein „Zuordnungswissen" erstellt, das zunachst auf 
paarweisen Graphem-Phonem-Zuordnungen beruht und in das im 
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Laufe des Verfahrens auch Graphemeinheiten und Phoneme irihei- 
ten einbezogen werden. 

Das erf indungsgemafie Verfahren kann fur jede beliebige Spra- 
che angewandt werden, fur die bereits eine elektronisch les- 
bare Datenbank besteht, die Worter in Form von Graphemen und 
Phonemen enthalt, wobei eine Zuordnung zwischen den Phonemen 
und Graphemen nicht notwendig ist. Der Einsatz von Experten- 
wissen ist nicht erf orderlich, da das erf indungsgemafie Ver- 
fahren vollautomatisch ausgefuhrt wird. 

Mit der erf indungsgemafi erstellten Datenbank kann dann ein 
neuronales Netzwerk trainiert werden, mit dem die Graphem- 
Phonem- Zuordnungen bei der Synthetisierung oder Erkennung von 
Sprache automatisch ausgefuhrt werden. 

Die Erfindung wird nachfolgend naher anhand eines Ausfiih- 
rungsbeispieles erlautert, das in den Zeichnungen dargestellt 
ist. In diesen zeigen: 

Fig. 1 ein Ausf lihrungsbeispiel des er f indungsgemafien Ver- 
fahrens in einem Flufidiagramm, 

Fig. 2 schematisch ein neuronales Netzwerk zura Zuordnen 
von Graphemen zu Phonemen, und 

Fig. 3 schematisch eine Vorrichtung zur Ausfiihrung des er- 
f indungsgemafien Verfahrens. 

Das erf indungsgemafie Verfahren dient zum Aufbereiten einer 
Datenbank fiir die Sprachsynthese, wobei von einer Ausgangsda- 
tenbank ausgegangen wird, die Worter in Form von Graphemen 
und Phonemen enthalt. Eine solche Ausgangsdatenbank ist jedes 
Worterbuch, das die Worter sowohl in Schreibschr i f t (Graphe- 
me) als auch in Lautschrift (Phoneme) enthalt. Diese Worter- 
biicher enthalten jedoch keine Zuordnung der einzelnen Graphe- 
me zu den jeweiligen Phonemen. Sinn und Zweck des erfindungs- 
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gemaiien Verfahrens ist die Erstellung einer solchen Zuord- 
nung . 

In Fig. 1 ist ein Ausf uhrungsbeispiel des er f indungsgemalien 
5 Verfahrens in einem Flufidiagramm dargestellt. In einem 
Schritt SI wird das Verfahren gestartet. 

Im Schritt S2 werden alle Worter untersucht, die die gleiche 
Anzahl Grapheme und Phoneme besitzen. Die Grapheme dieser 
10 Worter werden den entsprechenden Phonemen paarweise zugeord- 
net . 

Eine derartige paarweise Zuordnung wird z.B. fur das engli- 
sche Wort „run" ausgefiihrt, das f olgendermaiien mit seinen 
15 Graphemen und Phonemen dargestellt werden kann: 

Grapheme : r u n 
Phoneme : r A n 

2 0 Bei „run" wird das Graphem „r" dem Phonem „r", das Graphem 
„u xx dem Phonem „A" und das Graphem „n" dem Phonem „n" zuge- 
ordnet. Bei dieser paarweisen Zuordnung wird somit jeweils 
ein einziges Graphem einem einzigen Phonem zugeordnet. Dies 
wird fiir alle Worter ausgefiihrt, die die gleiche Anzahl von 

25 Phoneme und Grapheme besitzen. 

Im nachf olgenden Schritt S3 wird eine Korrektur ausgefuhrt, 
mit der die Zuordnungen der Worter, die im Widerspruch zu dem 
im Schritt S2 ermittelten weiteren Zuordnungen stehen, ge- 

30 loscht werden. Hierzu werden die Haufigkeiten der einzelnen 
Graphem-Phonem-Zuordnungen erfaJit und Graphem-Phonem- 
Zuordnungen die nur selten vorkommen werden geloscht. Liegt 
die Haufigkeit einer bestimmten Graphem-Phonem-Zuordnung un- 
ter einem vorbestimmten Schwellwert, so werden die entspre- 

35 chenden Graphem-Phonem-Zuordnungen geloscht. Der Schwellwert 
liegt z.B. im Bereich von einer Haufigkeit von 10 bis 100. Je 
nach Umfang des Vokabulars der Ausgangsdatenbank kann der 
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Schwellwert entsprechend angepaftt werden, wobei bei grofieren 
Ausgangsdatenbanken ein hoherer Schwellwert als bei kleineren 
Ausgangsdatenbanken zweckmaftig ist. 

Ein Beispiel fur eine derartige widerspruchliche Graphem- 
Phonem- Zuordnung ist das englische Wort „fire' 

Grapheme : f i r e 
Phoneme : f I @ r 



Die Zuordnung des Graphems „r" zum Phonem „@ >x und die Zuord- 
nung des Graphems „e xx zum Phonem „r" sind nicht korrekt zuge- 
ordnet. Diese beiden Zuordnungen treten sehr selten auf, wes- 
halb ihre Haufigkeit kleiner als der Schwellwert ist, so daft 
15 sie im Schritt S3 geloscht werden. Zudem wird im Schritt S3 
das Wort „fire" wieder als nicht-zugeordnet markiert, so daft 
es in einem spateren Zuordnungsschritt wieder untersucht wer- 
den kann . 

20 Im Schritt S4 werden Worter untersucht, die mehr Grapheme als 
Phoneme besitzen, wobei jeweils ein Graphem einem Phonem in 
Leserichtung (von links nach rechts) zugeordnet wird und die 
verbleibenden Grapheme mit dem letzten Graphem, dem ein Pho- 
nem zugeordnet worden ist, zu einer Graphemeinheit zusammen- 

25 gefaftt werden. Ein Beispiel eines Wortes, das auf diese Art 
und Weise korrekt zugeordnet wird, ist das englische Wort 
„aback" : 

Grapheme : a b a ck 
30 Phoneme: x b @ k 

Im hierauf folgenden Schritt S5 wird wiederum eine Korrektur 
ausgeftihrt, mit der Zuordnungen geloscht werden, die im Wi- 
derspruch zu den bisher ermittelten Zuordnungen stehen, das 
35 heiftt, Zuordnungen, die nur eine geringe Haufigkeit aufwei- 
sen. Der Schritt S5 ist diesbezliglich identisch mit dem 
Schritt S3. 
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Im Schritt S6 werden die Worter, die mehr Grapheme als Phone- 
me besitzen und im Schritt S4 nicht korrekt zugeordnet werden 
konnten, von neuem untersucht, wobei jeweils ein einzelnes 
5 Graphem einem einzelnen Phonem in Leserichtung (von links 
nach rechts) zugeordnet wird. Jede einzelne Zuordnung wird 
uberpruft, ob sie den bisher ermittelten Zuordnungen ent- 
spricht. Ergibt diese Oberpruf ung, dali eine Graphem-Phonem- 
Zuordnung nicht den bisherigen Zuordnungen entspricht, das 

10 heifit, daJi sie nicht die notwendige Haufigkeit besitzt, geht 
das Verfahren auf die letzte Graphem- Phonem- Zuordnung zuriick 
und verbindet das Graphem dieser Graphem- Phonem- Zuordnung mit 
dem in Leserichtung nachstem Graphem zu einer Graphemeinheit . 
Die ubrigen Phoneme und Grapheme werden dann wieder einander 

15 einzeln zugeordnet, wobei wiederum jede einzelne Graphem- 
Phonem-Zuordnung uberpruft wird. 

Bei diesem Verf ahrensschritt konnen innerhalb eines Wortes 
eine oder mehrere Graphemeinheiten erzeugt werden, wobei die 
20 Graphemeinheiten in der Regel zwei Grapheme umfassen. Es ist 
jedoch auch moglich, daii die Graphemeinheiten drei oder mehr 
Grapheme umfassen konnen. 

Ein Wort, bei dem der Schritt S6 zu einer er f olgreichen Zu- 
25 ordnung fuhrt ist z.B. das englische Wort ^abasement": 

Grapheme: abasement 
Phoneme :xbes mint 

30 Bei „abasement" erfolgt die paarweise Zuordnung korrekt bis 

zum Graphem „e" das zunachst dem Phonem „m", zugeordnet wird. 
Diese Zuordnung steht im Widerspruch zu den bisher ermittel- 
ten Zuordnungen, weshalb das Verfahren auf die letzte erfolg- 
reiche Zuordnung des Graphems „s" zum Phonem „s M zuruckgeht 

35 und das Graphem „s" mit dem Graphem „e" zur Graphemeinheit 

„se" verbindet. Die weitere paarweise Zuordnung der Grapheme 
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zu den Phonemen entspricht wieder den bisher ermittelten Zu- 
ordnungen, weshalb sie dementsprechend ausgefiihrt werden. 

Im Schritt S7 werden die im Schritt S6 untersuchten Worter, 
5 die nicht vollstandig erfolgreich zugeordnet worden sind, 
markiert und deren Zuordnungen werden wiederum geloscht. 

Im Schritt S8 werden die Worter, die mehr Grapheme als Phone- 
me besitzen und in den Schritten S4 und S6 nicht korrekt zu- 

10 geordnet werden konnten, von Neuem untersucht, wobei jeweils 
ein einzelnes Graphem einem einzelnen Phonem zunachst in Le- 
serichtung (von links nach rechts) zugeordnet wird. Jede ein- 
zelne Zuordnung wird wiederum iiberpruft, ob sie den bisher 
ermittelten Zuordnungen entspricht, Ergibt diese Oberpriifung, 

15 daii eine Graphem- Phonem- Zuordnung nicht den bisher igen Zu- 
ordnungen entspricht, das heiftt, dafi die Zahl der Haufigkeit 
unter einem vorbestimmten Schwellwert liegt, werden entgegen 
der Leserichtung (von rechts nach links) einzelne Grapheme 
einzelnen Phonemen zugeordnet, Bleibt bei dieser Methode le- 

20 diglich ein Phonem liber, dem kein Graphem zugeordnet werden 
kann, so werden die restlichen Grapheme zu einer Graphemein- 
heit zusammengef afit und dem einen Phonem zugeordnet. 

Bei diesem Verf ahrensschritt kann innerhalb eines Wortes eine 
25 Graphemeinheit erzeugt werden . 

Ein Wort, bei dem der Schritt S8 zu einer er f olgreichen Zu- 
ordnung fuhrt, ist z.B. das englische Wort „amongst M : 

30 Grapheme: a m o ng s t 

Phoneme : x m A G s t 

Bei „amongst" erfolgt die paarweise Zuordnung von links nach 
rechts korrekt bis zum Graphem „n", das zunachst dem Phonem 
35 „G" zugeordnet wird. Diese Zuordnung steht im Widerspruch zu 
den bisher ermittelten Zuordnungen, weshalb eine paarweise 
Zuordnung von rechts nach links ausgefiihrt wird. Diese Zuord- 
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nung verlauft korrekt bis zum Graphem „g x> das zunachst dem 
Phonem „G" zugeordnet wird. Diese Zuordnung steht im Wider- 
spruch zu den bisher ermittelten Zuordnungen. Als einziges 
Phonem dem kein Graphem zugeordnet werden kann, verbleibt das 
5 Phonem „G" . Diesem Phonem „G" werden nun die restlichen Gra- 
pheme „n" und „g" , die zu einer Grapheme inheit zusammengef afi t 
werden, zugeordnet . 

Im Schritt S9 werden die im Schritt S8 untersuchten Worter, 
10 die nicht vollstandig erfolgreich zugeordnet worden sind, 
markiert und deren Zuordnungen werden wiederum geloscht. 

Im Schritt S10 werden die Worter, die weniger Grapheme als 
Phoneme besitzen untersucht, wobei die einzelnen Grapheme den 

15. einzelnen Phonemen paarweise zugeordnet werden, wobei die 

Grapheme auch den zu den zugeordneten Phonemen benachbarten 
Phonemen zugeordnet werden. Von all diesen Zuordnungen wird 
die jeweilige Haufigkeit bestimmt, und falls festgestellt 
wird, dafi ein Graphem zwei benachbarten Phonemen mit einer 

20 groften Haufigkeit zugeordnet werden kann, werden diese beiden 
Phoneme zu einer Phonemeinheit zusammengef afit, falls die bei- 
den Phoneme zwei Vokale oder zwei Konsonanten sind. 

Ein Wort, bei dem der Schritt S9 zu einer korrekten Zuordnung 
25 fiihrt, ist z.B. das englische Wort „axes" : 

Grapheme : a x e s 
Phoneme : @ ks i z 

30 Bei „axes" ergibt die Zuordnungen des Graphems „x" zu den 

Phonemen „k" und „s" jeweils eine Haufigkeit, die liber einem 
vorbestimmten Schwellwert liegt, so dafi diese beiden Phoneme 
zur Phonemeinheit „ks" zusammengef afit werden. Die iibrigen 
Grapheme und Phoneme werden wiederum paarweise zugeordnet. 

35 
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Im Schritt S10 ist es auch moglich, dali mehrere Phonemeinhei- 
ten gebildet werden oder dali die Phonemeinheiten auch mehr 
als zwei Phoneme umfassen. 

5 Im Schritt Sll wird wiederum eine Korrektur durchgef lihrt , bei 
der die Zuordnungen, die selten auftreten, geloscht werden, 
und die Worter in denen diese widerspriichlichen Zuordnungen 
festgestellt worden sind als nicht-zugeordnet markiert wer- 
den. Der Schritt Sll entspricht im wesentlichen den Schritten 
10 S3 und S5, wobei hier jedoch auch die bis zum Schritt S10 er- 
mittelten Graphem-Phonem- Zuordnungen berucksichtigt werden. 

Der Schritt S12 entspricht im wesentlichen dem Schritt S10, 
das heilit, dali Phonemeinheiten aus benachbarten Phonemen ge- 
15 bildet werden, wobei im Schritt S12 die Phonemeinheiten nicht 
auf zwei Konsonanten oder zwei Vokale beschrankt sind, son- 
dern auch eine Mischung aus Vokalen und Konsonanten beinhal- 
ten konnen. 

20 Im Schritt S13 wird wiederum ein Korrekturvorgang durchge- 

fiihrt, der dem des Schrittes Sll entspricht, wobei alle mitt- 
lerweile ermittelten Gr aphem- Phonera- Zuordnungen berucksich- 
tigt werden. 

25 Im Schritt S14 werden die in den Schritten S10 und S12 ermit- 
telten Phonemeinheiten verwendet, urn Worter, deren Grapheme 
nicht den Phonemen korrekt zugeordnet werden konnten, erneut 
zu untersuchen, wobei fur benachbarte Phoneme, fiir die be- 
reits eine Phonemeinhei t existiert, diese eingesetzt wird. 

30 Optional ist es auch moglich, dali die bisher ermittelten Gra- 
phemeinheiten berucksichtigt werden. Sollte von dieser Option 
kein Gebrauch gemacht werden, konnen hier Graphemeinheiten 
erneut gemali den Methoden nach den Schritten S4, S6 und S8 
gebildet werden. 

35 

Ein Wort, das die Zuordnung gemali dem Schritt S14 zeigt, ist 
das englische Wort ^accumulated^: 
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Grapheme: accu mu lated 
Phoneme : xk yumyxletld 

5 Bei diesem Wort werden zunachst die Phoneme „y xx und „u xx bzw. 
„y xx und „x xx durch die Phonemeinheiten „yu xx bzw. „yx xx ersetzt. 
Da diese Phonemeinheiten bereits bei den vorhergehenden 
Schritten ermittelt worden sind, wird im Schritt S14 von der 
Option Gebrauch gemacht, dafi auch die Graphemeinheiten be- 
10 rucksichtigt werden, so wird fur die beiden Grapheme „c x> und 
„c xx die Graphemeinheit „cc xx verwendet. Die paarweise Zuord- 
) nungen der einzelnen Grapheme bzw. Graphemeinheiten zu den 

einzelnen Phonemen bzw. Phonemeinheiten ergibt eine korrekte 
Zuordnung . 

15 

Wird von der Option der Beriicksichtigung der Graphemeinheiten 
kein Gebrauch gemacht, so werden, wie es im Schritt S6 der 
Fall ist, die einzelnen Grapheme den einzelnen Phonemen bzw. 
Phonemeinheiten zugeordnet, wo'bei im vorliegenden Fall bei 

20 der Zuordnung des Graphems „c xx zu der Phonemeinheit „yu xx eine 
zu den bisherigen Zuordnungen widerspriichliche Zuordnung er- 
folgt. Diese widerspriichliche Zuordnung wird festgestellt und 
das Graphem „c xx wird mit dem vorhergehenden Graphem „c xx zu 
„cc xx zusammengef afit . Dies ftihrt wiederum zu einer korrekten 

25 Zuordnung der Grapheme zu den Phonemen. 

Im Schritt S15 wird wiederum gepriift, ob widerspriichliche Zu- 
ordnungen erfolgt sind. Werden derartige widerspriichliche Zu- 
ordnungen festgestellt, werden sie und die weiteren Zuordnun- 
30 gen des jeweiligen Wortes geloscht. 

Mit dem Schritt S16 wird das Verfahren beendet . 

Die Anzahl der im Schritt S15 ermittelten widerspriichlichen 
35 Zuordnungen ist ein Merkmal fur die Qualitat der Aufbereitung 
der Ausgangsdatenbank' zu der durch das Verfahren erhaltenen 
Datenbank mit den einzelnen Graphem-Phonem-Zuordnungen . 
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Das erf indungsgemaJie Verfahren konnte schon sehr erfolgreich 
zur automat ischen Erstellung einer Datenbank fur die deutsche 
Sprache eingesetzt werden, wobei eine Zuordnungsdatenbank mit 
5 insgesamt 47 Phonemen und 92 Graphemen aufgebaut worden ist. 
Bei der Erstellung der Datenbank fur die englische Sprache, 
die eine wesentlich kompliziertere Graphem-Phonem-Zuordnung 
besitzt, ergaben sich 62 Phoneme und 222. Grapheme, deren Zu- 
ordnungen nicht so gut wie bei der deutschen Sprache war. Die 

10 groliere Anzahl von Graphemen in der englischen Sprache macht 
deren Bearbeitung kompliziert. Es kann deshalb zweckmafiig 
sein, ein Null-Phonem einzuftihren, das heifit ein Phonem ohne 
einen Laut. Ein derartiges Null-Phonem kann z.B. der engli- 
schen Graphemeinheit „gh" zugeordnet werden, das in der eng- 

15 lischen Sprache stimmlos in Kombination mit den Graphemen 

„ei", „ou" und „au^ vorkommt. Wurde man kein derartiges Null- 
Phonem einfuhren, mlifite man zusatzlich zu den Graphemen „ei", 
//Ou" und „au M die Phoneme „eigh", „ough" und „augh M einfuh- 
ren. Das Null-Phonem erlaubt eine Verringerung der Anzahl der 

20 Grapheme, da „eigh", „ough" und „augh x> jeweils durch „ei", 

„ou" und „au" in Kombination mit „gh" ersetzt werden konnen. 
Hierdurch kann die Zuverlassigkeit des Verfahrens gesteigert 
werden. Insbesondere erlaubt eine geringere Anzahl von Phone- 
men bzw. Graphemen eine einfachere, schnellere und zuverlas- 

25 sigere Anwendung bei einem neuronalen Netzwerk, das mittels 
der mit dem er f indungsgemafien Verfahren erstellten Datenbank 
trainiert wird. 

Ein solches neuronales Netzwerk ist in Fig. 2 schematisch 
30 vereinfacht dargestellt, das funf Eingangsknoten und zwei 

Ausgangsknoten aufweist. An drei der funf Eingangsknoten wer- 
den drei auf einander f olgende Buchstaben Bl, B2 und B3 eines 
Wortes, das in Phoneme umgesetzt werden soli, eingegeben. Auf 
der Ausgangsseite gibt es zwei Knoten, wobei einer der beiden 
35 das jeweilige Phonem Ph und der andere Knoten eine Gruppie- 
rung Gr ausgibt. An den beiden weiteren Eingangsknoten wird 
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die zuletzt ausgegebene Gruppierung Gri und das zuletzt aus- 
gegebene Phonem Phi eingegeben. 

Dieses Netzwerk wird mit den Wortern der mit dem erfindungs- 
gemafien Verfahren aufbereiteten Datenbank trainiert, deren 
Graphem-Phonem-Zuordnungen keinen Widerspruch zu den ubrigen 
Graphem-Phonem-Zuordnungen darstellen, das heifit, den Wor- 
tern, deren Grapheme korrekt den Phonemen zugeordnet werden 
konnten . 



Das neuronale Netzwerk ermittelt jeweils fur den mittleren 
Buchstaben B2 ein Phonem, wobei der jeweils im Kontext vor- 
hergehenden und nachfolgende Buchstabe und das dem zu ermit- 
telnden Phonem vorhergehende Phonem Phi beriicksichtigt wer- 
15 den. Stellen die beiden auf einanderf olgenden Buchstaben B2 
und B3 eine Graphemeinheit dar, so ergibt sich eine Ausgabe 
fur die Gruppierung Gr von zwei. 1st der Buchstabe B2 kein 
Bestandteil einer aus mehreren Buchstaben bestehenden Graphe- 
meinheit, so wird als Gruppierung Gr eine eins ausgegeben. 

20 

Auf der Eingangsseite wird die jeweils letzte Gruppierung Gr x 
beriicksichtigt, wobei im Falle einer Gruppierung von Gri von 
zwei dem mittleren Buchstaben B2 kein Phonem Ph zugeordnet 
wird, da dieser Buchstabe bereits mit der letzten Graphemein- 
25 heit beriicksichtigt worden ist. In diesem Fall wird der zwei- 
te Buchstabe der Gruppierung iibersprungen . 

Beim Training des neuronalen Netzwerkes werden, wie es an 
sich bekannt ist, jeweils die Werte fur die Eingangsknoten 
30 und fur die Ausgangsknoten dem neuronalen Netzwerk vorgege- 
ben, wodurch sich das neuronale Netzwerk die jeweiligen Zu- 
ordnungen im Kontext der Worter aneignet. 

Es kann zweckmafiig sein, mehr als drei Buchstaben an der Ein- 
35 gangsseite des neuronalen Netzwerkes vorzusehen, insbesondere 
bei Sprachen, wie der englischen Sprache, in welcher mehrere 
Buchstaben zur Darstellung eines einzigen Lautes verwendet 
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werden. Fur die deutsche Sprache ist es zweckmaftig an der 
Eingangsseite drei oder fiinf Knoten zur Eingabe von Buchsta- 
ben vorzusehen, wohingegen fur die englische Sprache fiinf, 
sieben oder sogar neun Knoten zur Eingabe von Buchstaben 
5 zweckmaflig sein konnen. Bei neun Knoten konnen Graphemeinhei- 
ten mit bis zu fiinf Buchstaben behandelt werden. 



Ist das neuronale Netzwerk einmal mit der erfindungsgemaBen 
Datenbank trainiert worden, kann es zur automatischen Erzeu- 
10 gung von Sprache verwendet werden. Eine Vorrichtung zum Er- 
zeugen von Sprache, in der das erf indungsgemafie neuronale 
Netzwerk eingesetzt werden kann, ist schematisch in Fig. 3 
gezeigt . 

15 Diese Vorrichtung ist eine elektronische Datenverarbeitungs- 
vorrichtung 1 mit einem internen Bus 2, an dem eine zentrale 
Prozessoreinheit 3, eine Speichereinheit 4, ein Interface 5 
und eine akustische Ausgabeeinheit 6 angeschlossen sind. Das 
Interface 5 kann iiber eine Datenleitung 8 eine Verbindung zu 

20 einer weiteren elektronischen Datenverarbeitungsvorr ichtung 

herstellen. An der akustischen Ausgabeeinheit 6 ist ein Laut- 
sprecher 7 angeschlossen. 

In der Speichereinheit 4 ist das erf indungsgemalie neuronale 
25 Netzwerk in Form eines Computerprogrammes abge.speichert, das 
mittels der zentralen Prozessoreinheit 3 zur Ausfuhrung ge- 
bracht werden kann. Ein Text, der der elektronischen Daten- 
verarbeitungsvorrichtung auf beliebige Weise, z.B. iiber das 
Interface 5, zugefuhrt wird, kann dann mit einem entsprechen- 
30 den Hilf sprogramm dem neuronalen Netzwerk zugefuhrt werden, 

das die Grapheme, bzw. Buchstaben des Textes in entsprechende 
Phoneme umsetzt. Diese Phoneme werden in einer Phonem-Datei 
gespeichert, die iiber den internen Bus 2 an die akustische 
Ausgabeeinheit 6 wei tergegeben wird, mit der die einzelnen 
35 Phoneme in elektrische Signale umgesetzt werden, die vom 
Lautsprecher 7 in akustische Signale gewandelt werden. 
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Mit einer solchen elektronischen Datenverarbeitungsvorrich- 
tung 1 kann auch das erf indungsgemaJJe Verfahren zum Aufberei- 
ten einer Datenbank ausgefiihrt werden, wobei das Verfahren 
wiederum in Form eines Computerprogr ammes im Speicher 4 ge- 
speichert ist und von der zentralen Prozessoreinheit 3 zur 
Ausfiihrung gebracht wird, wobei es eine Ausgangsdatenbank, 
die ein Worterbuch in Schreib- und Lautschrift darstellt, in 
eine Datenbank aufbereitet, in der die einzelnen Laute, die 
Phoneme, den einzelnen Buchstaben bzw. Buchstabenkombinatio- 
nen, den Graphemen zugeordnet sind. 

Die Zuordnung der einzelnen Grapheme zu den einzelnen Phone- 
men kann in der aufbereiteten Datenbank durch Leerzeichen ge- 
speichert werden, die zwischen den einzelnen Phonemen und 
Graphemen eingefugt werden. 

Die das erf indungsgemafle Verfahren bzw. das neuronale Netz- 
werk darstellenden Computerprogramme konnen auch auf beliebi- 
ge elektronisch lesbare Datentrager gespeichert werden und so 
auf eine weitere elektrische Datenverarbeitungsvorrichtung 
ubertragen werden. 

Die Erfindung ist oben anhand eines Ausf uhrungsbeispieles Be- 
schrieben, mit dem eine Datenbank fur die Spr achsynthese er- 
zeugt wird. Im Rahmen der Erfindung ist es selbstverstandlich 
auch moglich, die erf indungsgemafi erzeugte Datenbank bei der 
Spracherkennung zu verwenden, da Spracherkennungsver f ahren 
oftmals Datenbanken mit Graphem-Phonem-Zuordnungen gebrau- 
chen. 

Eine Spracherkennung kann bspw. mit einem neuronalen Netzwerk 
ausgefiihrt werden, das mit der erf indungsgemaJ3 erstellten Da- 
tenbank trainiert worden ist. An der Eingangsseite weist die- 
ses neuronale Netzwerk vorzugsweise drei Eingangsknoten auf, 
an welchen das in ein Graphem umzusetzende Phonem eingegeben 
und falls vorhanden zumindest ein im Wort vorhergehendes und 
ein nachf olgendes Phonem eingegeben werden. An der Ausgangs- 
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seite weist das neuronale Netzwerk einen Knoten auf, an dem 
das dem Phonem zugeordnete Graphem ausgegeben wird. 

Im Rahmen der Erfindung liegt somit jede Anwendung des Er- 
stellens und Anwenden der erf indungsgemaJi erstellten Daten- 
bank im Bereich der automatischen Sprachverarbeitung . 



GR 99 P 2739 



17 

Patentansprliche 

1. Verfahren zum Aufbereiten einer Datenbank fur die au- 
tomatische Sprachverarbeitung, bei welchem anhand der Worter 
in Form von Graphemen und Phonemen enthaltenden Datenbank ei- 
ne Zuordnung der Grapheme zu den Phonemen erstellt wird, um- 
fassend folgende Schritte: 

a) Zuordnen der Grapheme zu den Phonemen aller Worter, 
die dieselbe Anzahl Grapheme und Phoneme besitzen, wobei die 
Grapheme und Phoneme einander paarweise zugeordnet werden, 

b) Zuordnen der Grapheme zu den Phonemen aller Worter, 
die mehr Grapheme als Phoneme besitzen, wobei zunachst alle 
Grapheme den Phonemen paarweise zugeordnet werden, bis sich 
ein Zuordnungsf ehler auf Grundlage der bisher ermittelten Zu- 
ordnungen oder lediglich am Wortende ein oder mehrere Graphe- 
me vorhanden sind, die keinem Phonem zugeordnet sind, und Zu- 
sammenfassen mehrerer Grapheme zu einer Graphemeinheit und 
Zuordnen eines Graphems zu der Phonemeinheit , und 

c) Zuordnen der Grapheme zu den Phonemen aller Worter, 
die weniger Grapheme als Phoneme besitzen, wobei mehrere Pho- 
neme zu einer Phonemeinheit zusammengef afit werden und ihnen 
ein einziges Graphem derart zugeordnet wird, daii die iibrigen 
Graphem- Phonem- Zuordnungen des zu analysierenden Wortes den 
unter a) und b) gefundenen Zuordnungen entsprechen, 

d) Zuordnen der bisher nicht zuordbaren Worter, wobei 
die Worter nach den unter c) ermittelten Phonemeinheiten 
und/oder den unter b) ermittelten Graphemeinhei ten untersucht 
werden und die Grapheme zu den Phonemen unter Berucksicht i- 
gung der Phonemeinheiten und/oder Graphemeinhei ten zugeordnet 
werden, und 

wobei zumindest nach Schritt a) ein Korrekturschritt aus- 
gefuhrt wird, mit dem Zuordnungen von Wortern, die im Wider- 
spruch zu den im Schritt a) ermittelten weiteren Zuordnungen 
stehen, geloscht werden. 

2. Verfahren nach Anspruch 1, 
dadurch gekennzeichnet, 
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daii nach jedem der Schritte a) bis d) ein Korrektur- 
schritt ausgefiihrt wird, mit dem Zuordnungen von Wortern, die 
im Widerspruch zu den in den jeweiligen Schritten bzw. Teil- 
schritten ermittelten weiteren Zuordnungen stehen, geloscht 
5 werden. 

3. Verfahren nach Anspruch 1 oder 2, 
dadurch gekennzeichnet, 

dafi der Korrekturschritt auf Grundlage einer Statistik 
10 ausgefiihrt wird, mit welcher die Haufigkeit der einzelnen 

Graphem-Phonem- Zuordnungen erfaiit wird, wobei mit dem Korrek- 
turschritt ermittelt wird, welche Zuordnungen eine Haufigkeit 
aufweisen, die unter einem vorbestimmten Schwellwert liegt, 
und diese Zuordnungen loscht . 

15 

4. Verfahren nach Anspruch 3, 
dadurch gekennzeichnet, 

daii die Worter, die eine geloschte Zuordnung enthalten 
als nicht zugeordnet markiert werden, so daii sie bei einem 
20 der nachf olgenden Schritte wieder berucksichtigt werden kon- 
nen . 

5. Verfahren nach einem der Anspruche 1 bis 4, 
dadurch gekennzeichnet, 

25 daii beim Zuordnen der Grapheme zu den Phonemen aller Wor- 

ter, die weniger Grapheme als Phoneme besitzen, lediglich Vo- 
kale oder Konsonanten zu einer Phonemeinheit zusammengef aJit 
werden . 

30 6. Verfahren nach einem der Anspruche 1 bis 4, 

dadurch gekennzeichnet, 

daii beim Zuordnen der Grapheme zu den Phonemen aller Wor- 
ter, die weniger Grapheme als Phoneme besitzen, zunachst Vo- 
kale oder Konsonanten in einer Phonemeinheit zusammengef afit 
35 und entsprechend dem Schritt c) zugeordnet werden, und falls 
weiterhin Worter, die weniger Grapheme als Phoneme besitzen, 
.nicht zugeordnet werden konnen, auch Vokale mit Konsonanten 
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zu einer Phonemeinheit zusammengef afit und entsprechend dem 
Schritt c) zugeordnet werden. 

7. Verfahren nach einem der Anspriiche 1 bis 6, 
5 dadurch gekennzeichnet, 

dafi beim Zuordnen der Grapheme zu den Phonemen aller Wor- 
ter, die mehr Grapheme als Phoneme besitzen, das oder die 
restlichen, am Wortende vorgesehenen Grapheme, zusammen mit 
dem letzten Graphem, das dem letzten Phonem des Wortes zuge- 
10 ordnet worden ist, zu einer Graphemeinheit zusammengef afit 
wird und die dem letzten Phonem des Wortes zugeordnet wird. 

8. Verfahren nach Anspruch 7, 
dadurch gekennzeichnet, 

15 dafi falls sich ein Zuordnungswiderspruch auf Grundlage 

der bisher ermittelten Zuordnungen ergibt, an die langste zu- 
ordnungswiderspruchsf reie Kette von Graphemen das nachste 
Graphem mit dem letzten Graphem der Kette zu einer Graphe- 
meinheit zusammengef afit und die Zuordnung erneut versucht 

20 wird, wobei falls wiederum keine Graphem-Phonem-Zuordnung 

erstellt werden kann, das nachste Graphem mit der zuletzt ge- 
bildeten Graphemeinheit zusammengef afit und die Zuordnung er- 
neut versucht wird. 

25 9. Verfahren nach Anspruch 8, 

dadurch gekennzeichnet, 
dafi, falls keine Graphem-Phonem-Zuordnung eines Wortes 
mit mehreren Graphemen als Phonemen erzielt werden kann, die 
Zuordnung zunachst mit einer am Anfang des Wortes beginnenden 

30 paarweisen Zuordnung gestartet wird, bis sich ein Zuordnungs- 
widerspruch auf Grundlage der bisher ermittelten Zuordnungen 
ergibt, worauf eine am Ende des Wortes beginnende paarweise 
Zuordnung ausgefuhrt wird, und wenn lediglich ein einzelnes 
nicht zugeordnetes Phonem ubrig bleibt, werden die restlichen 

35 Grapheme zu einer Graphemeinheit zusammengef afit und dem einen 
nicht zugeordnetem Phonem zugeordnet. 
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10. Verfahren zum Trainieren eines neuronalen Netzwerkes 
zum Zuordnen von Graphemen zu Phonemen fur die automatische 
Sprachverarbeitung, 

5 dadurch gekennzeichnet, 

daft das neuronale Netzwerk mit einer nach dem Verfahren 
der Anspriiche 1 bis 9 aufbereiteten Datenbank trainiert wird, 
wobei die Grapheme an Eingangsknoten und die zugehorigen Pho- 
neme an einem Ausgangsknoten des neuronalen Netzwerkes einge-. 
10 geben werden. 

11. Verfahren zum Zuordnen von Graphemen zu Phonemen bei 
der Synthetisierung von Sprache, 

dadurch gekennzeichnet, 
15 daft die Graphem-Phonem-Zuordnung durch eine Zuordnung ei- 

nes Ausgangsmusters zu einem Eingangsmusters des nach dem 
Verfahren des Anspruchs 10 trainiertem neuronalen Netzwerkes 
ausgefiihrt wird, wobei das Eingangsmuster zumindest den zuzu- 
ordnenden Buchstaben und falls vorhanden zumindest einen im 
20 Wort vorhergehenden und einen nachf olgenden Buchstaben umfaftt 
und das Ausgangsmuster ein Phonem aufweist. 

12. Verfahren nach Anspruch 11, 
dadurch gekennzeichnet, 

25 daft das Eingangsmuster mehrere dem zuzuordnenden Buchsta- 

ben vorhergehende und nachfolgende Buchstaben umfaftt, wobei 
es vorzugsweise jeweils drei vorhergehende und nachfolgende 
Buchstaben umfaftt . 

30 13. Verfahren nach Anspruch 11 oder 12, 

dadurch gekennzeichnet, 

daft das Eingangsmuster das letzte Ausgangsmuster umfaftt. 



35 



14. Verfahren nach einem der Anspriiche 11 bis 13, 
dadurch gekennzeichnet, 
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dafi das Ausgangsmuster eine Gruppierung der Buchstaben, 
d.h., die Anzahl der zu einer Graphemeinheit im Eingangsmu- 
ster zusammengef aliten Buchstaben aufweist. 

15. Verfahren zum Zuordnen von Phonemen zu Graphemen bei 
der Erkennung von Sprache, 

dadurch gekennzeichnet, 

daft die Graphem-Phonem-Zuordnung durch eine Zuordnung ei- 
nes Ausgangsmusters zu einem Eingangsmusters des nach dem 
Verfahren des Anspruchs 10 trainiertem neuronalen Netzwerkes 
ausgefuhrt wird, wobei das Eingangsmuster zumindest das zuzu- 
ordnende Phonem und falls vorhanden ein im Wort vorhergehen- 
des und ein nachf olgendes Phonem umfafit und das Ausgangsmu- 
ster einen Buchstaben aufweist. 

16. Neuronales Netzwerk fur die automatische Sprachverar- 
beitung, mit welchem automatisch eine Zuordnung zwischen Gra- 
phemen und Phonemen hergestellt werden kann, 

dadurch gekennzeichnet, 
dali das neuronale Netzwerk gemaft dem Verfahren nach An- 
spruch 10 trainiert worden ist. 

17. Neuronales Netzwerk nach Anspruch 16, 
dadurch gekennzeichnet, 

daft es'auf einem elektronisch lesbaren Datentrager ge- 
speichert ist 
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Zusaramenf as sung 

Verfahren zum Aufbereiten einer Datenbank fur die automati- 
sche Sprachverarbeitung 

Mit einer durch das erf indungsgemalie Verfahren hergestellten 
Datenbank kann ein neuronales Netzwerk zum Synthetisieren 
bzw. Erkennen von Sprache trainiert werden. Mit dem trainier- 
ten neuronalen Netzwerk konnen die Grapheme, bzw. Buchstaben 
eines Textes in die entsprechenden Phoneme umgesetzt werden. 
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